Greg Brockman扔出一个数字:80%。OpenAI的代码,AI写的。但这个数字怎么算出来的,他本人都说不清楚——「很难知道有多少不是AI写的」。一个连定义都模糊的数据,正在被整个行业当作里程碑引用。
80%的两种算法,差出一个时代
Brockman的原话留了巨大的解释空间。一种理解是:AI贡献了80%的代码行数,这是生产力叙事。另一种是:AI以某种形式参与了80%的编码工作——补全、重构建议、生成后人工修改——这是使用率叙事。
他的那句「很难知道有多少不是AI写的」,明显偏向第二种。但媒体传播和业界讨论时,两种解读被混为一谈。这个差距有多大?大到足以重新定义「AI写代码」这件事的含金量。
这不是OpenAI一家的话术。Anthropic的Dario Amodei去年公开说AI写了90%的代码,目标几个月内冲到100%。Cursor三年做到20亿美元年化收入,GitHub Copilot 470万付费订阅、财富100强90%渗透率。Anthropic 300亿美元年化收入,公司自己承认主要就三块:编码、企业搜索、通用生产力。
模式高度一致:造模型的公司,都在说模型彻底改变了软件工程。
「2025年12月拐点」到底拐了什么
Brockman在四月初的Big Technology播客里描述得更具体。他说2025年12月是个拐点——模型从能处理约20%的典型工程任务,跃升到约80%。他的原话是:「你必须围绕这些AI重新设计工作流。」
他举了一个OpenAI工程师的例子:这人以前完全搞不定让AI处理底层系统工程,现在扔给模型一份设计文档,看着它实现、插桩、分析性能,直到产出生产级代码。
这个案例被反复引用,但值得细品。从「完全搞不定」到「全自动」,中间发生了什么?Brockman没说。是模型变了,还是工程师的提示词工程进步了,或者是任务本身的定义被悄悄收窄了?
更关键的是,20%到80%的跃迁,指的是任务覆盖率,还是任务完成度?一个能写80%场景代码但剩下的20%全是硬骨头的系统,和一个能写20%场景但端到端交付的系统,完全是两回事。
自证预言的循环
这里有个微妙的循环论证。AI实验室用自己的产品提升自己的生产力,然后用这个提升来证明产品的价值。Brockman、Amodei、Cursor创始人,都在这个循环里。
但外部验证呢?GitHub Copilot的470万订阅是真实的付费意愿,但「90%财富100强采用」不等于「90%代码由AI生成」。企业采购和实际渗透率是两件事,采购决策里的政治因素、实验性质、合规要求,都会扭曲这个数字的真实含义。
Cursor的20亿美元年化收入更直接——客户用钱投票。但Cursor卖的是AI辅助编码的体验,不是「AI写了多少百分比」的认证。它的成功证明开发者愿意为AI工具付费,不证明AI已经替代了特定比例的人类工作。
Anthropic的300亿美元收入结构更值得玩味。编码、企业搜索、通用生产力三足鼎立,但公司自己没拆比例。如果编码真的占绝对大头,为什么不明说?这个模糊本身也是一种信息。
「70-80%的AGI」是谁的AGI
Brockman的另一个数字同样需要拆解:AGI已经「70-80%达成」,按他的个人定义。
个人定义。这四个字是整句话里最重要的。AGI没有行业标准定义,OpenAI自己内部的定义也几经变动。Brockman的70-80%,可能是任务覆盖率、可能是经济价值替代率、可能是某种能力阈值——他没展开。
但这个数字和80%代码生成率并置出现时,暗示了一种线性逻辑:代码生成是AGI的子集,代码生成率逼近100%意味着AGI逼近100%。这个推论跳跃了至少两步,却被包装成连贯叙事。
更紧迫的是他的另一个判断:算力稀缺现在是AI实验室交付能力的硬约束。这句话的潜台词是,模型能力本身已经不是瓶颈,基础设施才是。如果这是真的,意味着竞争焦点从算法创新转向资源调度;如果是叙事策略,则是在为潜在的交付延迟预埋解释。
contested evidence,被忽略的小字
原文里有个词用得精准:contested。关于AI编码生产力的底层证据,比 headline 数字显示的要「有争议得多」。
争议在哪?首先,「AI写的代码」没有审计标准。是AI生成初稿人工修改算AI写的,还是必须零人工干预才算?不同标准下,同一个工作流可以报出完全不同的百分比。
其次,代码量和代码价值不对等。80%的代码行数可能是20%的核心逻辑,也可能是80%的样板代码。AI在哪种代码上表现好,行业心里有数,但公开讨论时这个数字被平等对待了。
第三,自我选择偏差。愿意公开谈论AI编码率的,都是AI原生公司。传统软件公司的数据呢?金融、医疗、航空等强监管行业的实践呢?这些声音在公共叙事里基本缺席。
Brockman那句「很难知道有多少不是AI写的」,表面是谦虚,实际是方法论困境。当人机协作深度嵌套时,「谁写的」这个问题本身可能就不成立。但「不成立的问题」被包装成「80%的答案」传播,这是信息损耗还是信息操纵?
开发者该信什么
对于25-40岁的科技从业者,这组数字的真正价值不是信或不信,而是识别它们的使用场景。
如果你是决策者,80%是采购谈判的筹码,不是技术路线图。供应商会用这个数字证明成熟度,你需要追问的是:你们的80%怎么定义的?有第三方审计吗?在我们的代码库上实测过吗?
如果你是开发者,80%是工作流重构的信号,不是职业终结的倒计时。Brockman说的「必须重新设计工作流」比「80%代码AI写」更有操作性。重点不是AI替代了多少,而是人机协作的接口怎么设计。
如果你是投资者,80%是市场情绪指标,不是基本面数据。Cursor的20亿美元和Anthropic的300亿美元是真实的商业成果,但它们来自AI辅助编码的整体体验,不是某个百分比的直接变现。
行业正在经历一个典型的技术炒作周期:早期数字被过度解读,中期泡沫被挤出,后期真实价值沉淀。80%这个数字的位置,大概率还在前半段。
一个更朴素的观察
回到Brockman举的那个工程师案例。从「完全搞不定」到「设计文档进、生产代码出」,这个转变的描述方式本身就暴露了叙事倾向。
如果AI真的跨越了某个能力阈值,我们期待的描述应该是:更多工程师、更多场景、更稳定的输出。但公开信息里,我们看到的仍是单个案例、特定任务、个人定义。
这不是否定进步。2025年12月的拐点可能真实存在,但它拐向的方向、速度、终点,都被过早地封装进了80%这个简洁数字里。
对于讨厌注水、要信息密度的读者,最实用的 takeaway 是:当AI实验室谈论自己的AI生产力时,把数字除以二,把时间表乘以二,把「已经」换成「正在验证」。这样得到的估计,可能更接近你实际部署时会遇到的情况。
热门跟贴