几天前,Anthropic发了一篇很长的博客。他们内部研究发现:AI正在加速AI自身的发展,而这条路,可能通向一个人类从未真正准备好的地方。

有人说这是上市前的公关炒作、也有人深以为然积极应对。Anthropic台城地说:我们也不确定AI最终走向哪里,但我们觉得有必要现在就告诉所有人。

打开网易新闻 查看精彩图片

一、AI的能力跃迁,比人类预期的快

先说一个Anthropic的研究结论,AI能独立完成任务的时长,在不断增长。

2024年3月,Claude Opus 3能搞定大概需要人类4分钟的软件任务。一年后,Claude Sonnet 3.7做到了1.5小时。再一年,Claude Opus 4.6,12小时。最新的Mythos Preview,在METR的测试框架里,连续工作超过16小时,已经到了测试工具能衡量的上限。

这个翻倍速度,从原来的每7个月翻一倍,加速到了现在的每4个月翻一倍。如果趋势不变,今年内,AI就能独立完成需要人类花好几天的任务。到2027年,可能是好几周。

打开网易新闻 查看精彩图片

二、Claude开始给自己写代码

Anthropic的工程师现在每季度提交的代码量,是2021年到2025年平均水平的8倍。这个数字背后,是Claude Code上线之后发生的结构性变化。在Claude Code出现之前,Anthropic代码库里AI写的代码占比一直是个位数。截至2026年5月,这个数字超过了80%。

打开网易新闻 查看精彩图片

代码量暴增,但质量呢?Anthropic说,这一年来,工程师需要纠正Claude的次数越来越少了。在最开放、最模糊、连答案长什么样都不确定的编程任务上,Claude的成功率从六个月前的26%跳到了现在的76%。50个百分点,半年时间。

Anthropic现在直接用Claude做代码审查。所有提交到代码库的改动,都会先过一遍Claude的自动审查,检查bug、安全漏洞和其他问题。他们回溯分析发现,如果之前每次改动都走这道流程,大约三分之一导致线上事故的bug,在上线前就会被拦住。那些写代码的工程师,已经是全球顶尖的AI系统开发者了。Claude在抓他们的bug。

三、研究能力,开始超过人类

编码之外,Anthropic还做了一个实验,每次发布新模型,都会给Claude一段训练小型AI模型的代码,让它在保证正确性的前提下把运行速度优化到最快。2025年5月,Claude Opus 4的答案是加速3倍。2026年4月,Claude Mythos Preview做到了52倍。一个熟练的人类研究员,需要4到8小时才能勉强达到4倍。

Anthropic给Claude一个AI安全研究课题,让它自己提假设、设计实验、跑结果。两个人类研究员花了大约一周,把研究中的某个关键gap缩小了23%。Claude用了约800小时的算力、花费约18000美元,把同一个gap缩小了97%。

这意味着,人类在AI开发流程里的参与,每一个环节都在收窄。代码是Claude写的,审查是Claude做的,实验执行Claude比人快一个数量级,实验设计Claude开始自己来了。目前人类还保有的比较优势,是研究品味和判断力,知道什么问题值得问,知道哪个方向更重要。但这个优势能守多久,Anthropic自己也说不准。

四、AI自我进化的三种可能性

Anthropic在博客里描绘了三种可能的走向。

第一,停滞。那些指数曲线其实是S曲线,研究判断力这件事靠规模解决不了,需要全新的架构突破。或者瓶颈出现在能源、芯片、算力的物理供应链上。

第二,AI持续加速,但人类仍然把着方向盘。组织效率指数级提升,100人的团队做出10万人规模的产出。Anthropic认为我们大概率正在走进这个场景。

第三,AI实现完全的递归自我提升,开始自己造下一代自己。这个场景下,AI的发展速度完全取决于算力。人类退到监督、验证、审核的位置。

Anthropic发这篇博客,是想警示全人类:AI进展在未来几年会加速,而不是持平或减缓。如果存在一个可验证的机制,能确保所有AI实验室都没有在偷偷加速,他们愿意减速,甚至暂停。他们计划在未来几个月内就这个议题与立法者展开沟通。

但是业界也有不同声音,认为一个编码工具不会产生真正的智能。虽然观点存在争议,这恰恰说明没有人真的知道接下来会发生什么。Anthropic自己也承认这一点。