OpenAI说AI写了80%代码？数字背后藏着三个坑|agi|openai|代码|工作流|算法|自然语言

Greg Brockman扔出一个数字：80%。OpenAI的代码，AI写的。但这个数字怎么算出来的，他本人都说不清楚——「很难知道有多少不是AI写的」。一个连定义都模糊的数据，正在被整个行业当作里程碑引用。

80%的两种算法，差出一个时代

Brockman的原话留了巨大的解释空间。一种理解是：AI贡献了80%的代码行数，这是生产力叙事。另一种是：AI以某种形式参与了80%的编码工作——补全、重构建议、生成后人工修改——这是使用率叙事。

他的那句「很难知道有多少不是AI写的」，明显偏向第二种。但媒体传播和业界讨论时，两种解读被混为一谈。这个差距有多大？大到足以重新定义「AI写代码」这件事的含金量。

这不是OpenAI一家的话术。Anthropic的Dario Amodei去年公开说AI写了90%的代码，目标几个月内冲到100%。Cursor三年做到20亿美元年化收入，GitHub Copilot 470万付费订阅、财富100强90%渗透率。Anthropic 300亿美元年化收入，公司自己承认主要就三块：编码、企业搜索、通用生产力。

模式高度一致：造模型的公司，都在说模型彻底改变了软件工程。

「2025年12月拐点」到底拐了什么

Brockman在四月初的Big Technology播客里描述得更具体。他说2025年12月是个拐点——模型从能处理约20%的典型工程任务，跃升到约80%。他的原话是：「你必须围绕这些AI重新设计工作流。」

他举了一个OpenAI工程师的例子：这人以前完全搞不定让AI处理底层系统工程，现在扔给模型一份设计文档，看着它实现、插桩、分析性能，直到产出生产级代码。

这个案例被反复引用，但值得细品。从「完全搞不定」到「全自动」，中间发生了什么？Brockman没说。是模型变了，还是工程师的提示词工程进步了，或者是任务本身的定义被悄悄收窄了？

更关键的是，20%到80%的跃迁，指的是任务覆盖率，还是任务完成度？一个能写80%场景代码但剩下的20%全是硬骨头的系统，和一个能写20%场景但端到端交付的系统，完全是两回事。

自证预言的循环

这里有个微妙的循环论证。AI实验室用自己的产品提升自己的生产力，然后用这个提升来证明产品的价值。Brockman、Amodei、Cursor创始人，都在这个循环里。

但外部验证呢？GitHub Copilot的470万订阅是真实的付费意愿，但「90%财富100强采用」不等于「90%代码由AI生成」。企业采购和实际渗透率是两件事，采购决策里的政治因素、实验性质、合规要求，都会扭曲这个数字的真实含义。

Cursor的20亿美元年化收入更直接——客户用钱投票。但Cursor卖的是AI辅助编码的体验，不是「AI写了多少百分比」的认证。它的成功证明开发者愿意为AI工具付费，不证明AI已经替代了特定比例的人类工作。

Anthropic的300亿美元收入结构更值得玩味。编码、企业搜索、通用生产力三足鼎立，但公司自己没拆比例。如果编码真的占绝对大头，为什么不明说？这个模糊本身也是一种信息。

「70-80%的AGI」是谁的AGI

Brockman的另一个数字同样需要拆解：AGI已经「70-80%达成」，按他的个人定义。

个人定义。这四个字是整句话里最重要的。AGI没有行业标准定义，OpenAI自己内部的定义也几经变动。Brockman的70-80%，可能是任务覆盖率、可能是经济价值替代率、可能是某种能力阈值——他没展开。

但这个数字和80%代码生成率并置出现时，暗示了一种线性逻辑：代码生成是AGI的子集，代码生成率逼近100%意味着AGI逼近100%。这个推论跳跃了至少两步，却被包装成连贯叙事。

更紧迫的是他的另一个判断：算力稀缺现在是AI实验室交付能力的硬约束。这句话的潜台词是，模型能力本身已经不是瓶颈，基础设施才是。如果这是真的，意味着竞争焦点从算法创新转向资源调度；如果是叙事策略，则是在为潜在的交付延迟预埋解释。

contested evidence，被忽略的小字

原文里有个词用得精准：contested。关于AI编码生产力的底层证据，比 headline 数字显示的要「有争议得多」。

争议在哪？首先，「AI写的代码」没有审计标准。是AI生成初稿人工修改算AI写的，还是必须零人工干预才算？不同标准下，同一个工作流可以报出完全不同的百分比。

其次，代码量和代码价值不对等。80%的代码行数可能是20%的核心逻辑，也可能是80%的样板代码。AI在哪种代码上表现好，行业心里有数，但公开讨论时这个数字被平等对待了。

第三，自我选择偏差。愿意公开谈论AI编码率的，都是AI原生公司。传统软件公司的数据呢？金融、医疗、航空等强监管行业的实践呢？这些声音在公共叙事里基本缺席。

Brockman那句「很难知道有多少不是AI写的」，表面是谦虚，实际是方法论困境。当人机协作深度嵌套时，「谁写的」这个问题本身可能就不成立。但「不成立的问题」被包装成「80%的答案」传播，这是信息损耗还是信息操纵？

开发者该信什么

对于25-40岁的科技从业者，这组数字的真正价值不是信或不信，而是识别它们的使用场景。

如果你是决策者，80%是采购谈判的筹码，不是技术路线图。供应商会用这个数字证明成熟度，你需要追问的是：你们的80%怎么定义的？有第三方审计吗？在我们的代码库上实测过吗？

如果你是开发者，80%是工作流重构的信号，不是职业终结的倒计时。Brockman说的「必须重新设计工作流」比「80%代码AI写」更有操作性。重点不是AI替代了多少，而是人机协作的接口怎么设计。

如果你是投资者，80%是市场情绪指标，不是基本面数据。Cursor的20亿美元和Anthropic的300亿美元是真实的商业成果，但它们来自AI辅助编码的整体体验，不是某个百分比的直接变现。

行业正在经历一个典型的技术炒作周期：早期数字被过度解读，中期泡沫被挤出，后期真实价值沉淀。80%这个数字的位置，大概率还在前半段。

一个更朴素的观察

回到Brockman举的那个工程师案例。从「完全搞不定」到「设计文档进、生产代码出」，这个转变的描述方式本身就暴露了叙事倾向。

如果AI真的跨越了某个能力阈值，我们期待的描述应该是：更多工程师、更多场景、更稳定的输出。但公开信息里，我们看到的仍是单个案例、特定任务、个人定义。

这不是否定进步。2025年12月的拐点可能真实存在，但它拐向的方向、速度、终点，都被过早地封装进了80%这个简洁数字里。

对于讨厌注水、要信息密度的读者，最实用的 takeaway 是：当AI实验室谈论自己的AI生产力时，把数字除以二，把时间表乘以二，把「已经」换成「正在验证」。这样得到的估计，可能更接近你实际部署时会遇到的情况。

OpenAI说AI写了80%代码？数字背后藏着三个坑

热搜

热门跟贴

热搜

热门跟贴

相关推荐

撕开Claude Code真相：让它好用的98.4%，是工程不是AI

山姆·奥特曼的炒作史

他发明了价值万亿的AGI，如今穷困潦倒

90 后正在掌管中国 AI，凭实力活成了「爽文」主角

痴呆老人念叨奇怪数字代码子女求助政府，调查后发现老人大有身份

AI能改10万行代码，却让你走路去洗车！Karpathy戳破「锯齿状智能」

一下午一句话 Codex 帮我开发了一个完整的游戏！

都是车！第一批离深“大聪明”已堵路上

Excel突然算错三分之一：用户自创"分钟转小时"公式

上海迪士尼回应游客劝阻吸烟被打：园区没有禁烟；被打男子发声：对方已赔钱和解

28178人！中冠联赛单场观众纪录在江苏常州诞生

女生在路上跟一位帅哥打招呼，没想到直接触发了帅哥的底层代码

谷歌掀桌：深度研究智能体进入自动驾驶时代

深度｜AGI是不是一个阴谋论？

世界引擎：Post-Training开启Physical AGI新纪元

游客声称在上海街头"走路也罚款" 上海交管还原真相

张雪回应“820赛道熄火”：车子倾角设定是61度就会熄火，我们判断为摔车

Generalist之后，罗剑岚团队推出LWD，也要变革具身智能训练范式

VLMgineer让大模型自己「发明工具」，从设计到使用全自动

美国防部与SpaceX、OpenAI、谷歌、英伟达、Reflection、微软、亚马逊AWS达成协议