打开网易新闻 查看精彩图片

2023年GitHub Copilot刚火的时候,Stack Overflow调研显示55%的开发者每周用它写代码。两年后,同一份报告显示这个数字涨到72%,但"代码质量焦虑"也涨了40%。工具越顺手,人越不敢放手——这是AI编程时代最拧巴的现实。

LLM的"聪明"是一种统计学幻觉

LLM的"聪明"是一种统计学幻觉

Claude Code现在能一口气写200行React组件,Codex能边聊边改遗留系统。但有个问题被营销话术盖过去了:这些模型从不"知道"自己在写什么

它们的本质是token预测器。喂进去海量代码后,模型学会的是"看到A后面最可能跟B"。就像你刷短视频刷多了,能预判下一条的BGM,但这不等于你理解了视频内容。

这个机制决定了LLM的舒适区边界清晰得可怕。CRUD接口、标准REST API、用Angular搭的管理后台——这些在训练数据里重复了千万次的模式,AI输出又快又稳。GitHub 2024年的内部数据显示,样板代码的生成接受率高达78%。

但稍微往外跨一步,事情就变味。

某金融科技团队去年试过用AI设计分布式事务方案。模型吐出的代码"看起来"很专业,用了Saga模式、加了补偿逻辑。直到压测才发现,它在网络分区场景下直接忽略了业务约束,数据一致性形同虚设。团队负责人后来复盘:「AI给的是正确答案的cosplay,不是答案本身。」

复杂系统正在暴露AI的"理解赤字"

复杂系统正在暴露AI的"理解赤字"

打开网易新闻 查看精彩图片

判断AI能否替代工程师,关键看它需要多少"上下文"才能不出错。

一个简单的用户登录功能,上下文边界清晰:验证输入、查数据库、返回token。LLM处理这种封闭问题,表现接近中级开发者。

但企业级系统的上下文是网状蔓延的。一个订单状态变更,可能牵扯库存预留、支付风控、物流调度、财务对账、客服工单——每个节点都有自己的业务规则和历史债务。更麻烦的是,这些规则很多没写在文档里,藏在某个2018年的PR备注、某次凌晨的hotfix、某个已离职架构师的直觉里。

LLM没有这种"组织记忆"。它能读取你贴进对话框的代码片段,但读不懂为什么三年前那次重构要把同步改成异步,不知道为什么某个字段明明可空却永远要判非空。

Anthropic自己的人在Claude Code发布后也承认:「当项目规模超过5万行,或者涉及三个以上微服务的交互,模型的规划能力会明显下降。」这不是谦虚,是架构层面的天花板。

"AI替代焦虑"有多少是营销税

"AI替代焦虑"有多少是营销税

开发者对AI的敌意,很大程度上是被放大的。

OpenAI、Anthropic、Google的发布会节奏,比大多数工程师的学习曲线陡峭得多。GPT-4到4o隔了14个月,Claude 3到3.5隔了4个月。每次更新都伴随"编程能力大幅提升"的通稿,但"大幅提升"的具体场景很少被细说。

打开网易新闻 查看精彩图片

结果是认知扭曲:看发布会觉得明天就要失业,真用起来发现还是离不开人。Stack Overflow 2024年调研有个细节被忽略了——72%的开发者"使用"AI工具,但只有31%"信任"其输出用于生产环境。剩下41%的人,每天都在做同一件事:审AI写的代码,改AI写的代码,给AI解释为什么它错了。

这不像替代,更像招了个语速很快但经常漏看需求的实习生。

某头部云厂商的AI产品负责人私下说过:「我们的销售话术是'10倍效率',但内部OKR其实是'减少初级工程师重复劳动'。这两个数字差了一个数量级,但后者不够性感。」

真正在变的,是"工程师"的定义

真正在变的,是"工程师"的定义

LLM不会消灭软件工程师,但正在重新划分工作界面。

过去一个中级工程师的典型一天:30%写样板代码,40%调试和查文档,20%和业务方对齐需求,10%做技术决策。AI介入后,样板代码压缩到5%,但后面三项的占比在膨胀——因为代码产出快了,业务方的需求迭代也更激进;因为AI能生成十种方案,选哪种的决策压力更大了;因为系统复杂度没变,只是被AI的"快速试错"掩盖了。

Netflix 2024年工程博客提到一个反直觉的数据:引入AI辅助工具后,单个功能的交付周期缩短了35%,但工程师每周的会议时长增加了1.8小时。省下来的编码时间,被填进了更高密度的协作和决策。

这指向一个被回避的事实:AI替代的不是工程师,而是"只写代码"的那个岗位切片。过去这个切片能支撑一个人的完整职业生涯,现在它正在变薄。但系统架构、跨团队协调、业务建模、技术债务管理——这些需要"理解为什么"的工作,反而更吃紧了。

作者在这篇文章里写了一句挺实在的话:「我重写这篇文章好几次,花的时间比平时多。」一个天天用LLM的人,反而在需要深度思考时更谨慎了。这像不像你现在的状态——工具越顺手,越清楚什么地方不能交给工具?