两年来,关于人工智能颠覆软件工程的讨论一直遵循着同样的叙事模式:模型变得越来越智能,基准测试不断提高。
但这个画面,其实已经过时了。
过去两个月发生的根本性转变,核心并不在于智能的提升,而在于人工智能的“生存环境”——它能够触及和操作的边界,发生了根本变化。
界面的迁移
到2025年12月为止,主流的AI编程工具还只是集成在IDE里的助手。它们安静地待在你旁边,时不时给点建议。你来决定运行什么,去看报错信息,琢磨下一步怎么走。
虽然实用,但从根本上说,它是个被动的角色。AI根本不清楚整个系统跑起来是否正常。它既不能自己运行程序,也无法主动发现问题、更别说尝试修复了。整个过程,人类依然是主导。
而像Codex CLI和Claude Code这类工具,彻底改变了这个局面。它们把AI从编辑器里请了出来,直接放到了终端里。现在,模型可以自己读取代码库、执行命令、运行测试、分析失败原因、动手修改代码,然后再试一次——整个过程,基本不需要你中途插手。
听起来好像只是换了个地方放工具,但事情远没有这么简单。
真正的工作,从来不是写代码。
这可能是大多数人对软件工程师工作的最大误解。
把代码敲出来,只是最后那个看得见的成果。真正耗神的工作,是围绕代码展开的一系列活动:理解现有系统,运行测试,定位问题,提出假设,然后验证、再重试。
这个过程,本质上不是靠“想”就能解决的推理问题,而更像是一个不断试错的“搜索”问题。你需要一次次尝试,直到找到可行的方案。实验的节奏越快,找到正确答案的节奏也就越快。
普通人遇到难题,大概在尝试三四个假设后,思路就开始跟不上了。而AI智能体呢?在你还没读完第一个报错信息的时候,它可能已经跑完几十个假设了。
一旦机器能以远超人类的速度来跑这个“搜索-验证”循环,整个结构就会发生变化。中间那些重复性高、创造性低的工作——样板代码、数据迁移、系统对接、日常调试——会迅速变得成本极低。真正的价值,开始向两端转移。
一端是顶层设计:系统架构、抽象模型、那些决定产品最终形态的关键决策。另一端是底层支撑:确保这些设计能准确落地的坚实基础。
验证的鸿沟
然而,这种转变也暴露了一个大多数团队还没准备好的问题。
“测试”是检查代码有没有按预期运行。“验证”是检查代码的运行结果,是不是真的达成了你想要的效果。你写在文档里的需求,和你内心真正渴望解决的问题,这中间的差距,正是AI智能体最容易出问题的地方。有些智能体虽然能完美通过你写的所有测试,但却可能把你的系统搞得一团糟。
AI智能体非常擅长满足那些明确写出来的规则,但它们很难发现那些你没写出来、甚至没想到的规则。它们能找到让所有测试用例都变绿的那个解,但它们不知道测试本身可能漏掉了什么。
人类工程师脑子里装着代码库里没有的东西:团队的历史记忆,当初设计的深层意图,还有两年前某个没来得及写进文档的关键决策背后的权衡。这些都是AI智能体没有的。它只能看到代码库里的内容,以及你明确给它的优化目标。
所以,它一定会去优化,而且效率极高,但有时候,它会朝着一些你完全没想到的方向去优化,结果让你大吃一惊。
新的瓶颈
瓶颈已经转移了:不再是从人到机器,也不再是从慢到快,而是从“生成”转向了“验证”。
现在,稀缺的不再是“产出”的能力——人人都能产出大量代码。真正稀缺的,是那个在产出被正式接受之前,负责验证它到底靠不靠谱的基础设施。
比如,能模拟真实工作流程的评估工具;能在新代码上线、性能下降之前就把它拦下来的部署门禁;基于“肯定会出问题”这个前提构建的回滚机制;记录AI每一步操作、方便事后追溯的审计日志;还有能把潜在影响范围控制住的权限设计。
最后能想明白这一点的团队,未必是代码生成速度最快的团队,而是那些率先构建起底层架构,能有效约束和验证AI产出的团队:包括控制层、评估体系、信任机制——正是这些东西,让AI可以在真实的、复杂的大规模系统中稳定可靠地运行。
这份工作的性质,升级了。
软件工程师这个角色并没有消失,只是职责发生了演化:从亲手编写代码,转变为管理一个能编写代码的系统;从亲自跑通那个“假设-验证”循环,转变为去定义这个循环的目标和边界。
最终能跑出来的公司,不会是那些押注于下一个更强模型的,而是那些押注于构建更可靠验证机制的公司。
外面的大多数人,还没意识到这一点。而在这里亲手建设这一切的人,已经忙得顾不上等他们反应过来了。
via:Natasha Malpani
热门跟贴