Anthropic安全防护团队研究员Nicholas Carlini在一项实验中,让新发布的Opus 4.6模型构建C编译器,这让他感到"兴奋"、"担忧"和"不安"。这一实验也让GitHub上的许多观察者产生了质疑。
Carlini在与Opus 4.6官方发布同步的博客中详细介绍了这项被他称为"智能体团队"的实验。他表示:"我让16个智能体从零开始编写基于Rust的C编译器,要求能够编译Linux内核。经过近2000次Claude Code会话和20000美元的API成本后,智能体团队产生了一个10万行的编译器,能够在x86、ARM和RISC-V架构上构建Linux 6.9。"
实验设计与自主工作机制
据Carlini介绍,在智能体团队中,"多个Claude实例在共享代码库上并行工作,无需人类主动干预"。一个关键任务是解决"需要操作员在线并可协同工作"的问题,这意味着消除Claude Code等待人类指示下一步行动的需求。
"为了促进持续的自主进展,我构建了一个框架,让Claude陷入简单循环中...当它完成一项任务时,立即开始下一项任务。"Carlini继续说道:"我让每个Claude智能体自己决定如何行动。大多数情况下,Claude会选择'下一个最明显的'问题。"
成本与效果分析
在近两周的时间里,通过近2000次Claude Code会话,Opus 4.6消耗了20亿个输入Token和生成了1.4亿个输出Token,总成本接近20000美元。Carlini表示,这使其成为"极其昂贵的项目",但"这个总成本只是我自己完成这项工作成本的一小部分,更不用说整个团队了"。
实验结果与局限性
实验产生的编译器能够成功构建许多项目,但并非全部。它还不是真正编译器的即插即用替代品。此外,生成的代码效率不高,Rust代码质量"合理但...远未达到专业Rust程序员可能产生的质量"。
Carlini得出结论:"智能体团队展示了自主实现整个复杂项目的可能性。"但作为前渗透测试专家,他表示完全自主开发带来了真正的风险。"程序员部署他们从未亲自验证过的软件的想法确实令人担忧。"最终,这个实验"让我兴奋,但也让我感到不安"。
社区反馈与争议
GitHub上的评论更加直接,特别是因为他们认为20000美元的价格标签忽略了其他一些因素,比如模型最初训练时使用的大量其他程序员代码。
用户mohswell评论道:"如果我去超市,偷了他们所有面包的一点点,然后把它们拼在一起,没人会说我从零开始做面包。他们会说我是小偷。如果这是'从零开始',那我的烹饪就是从农场到餐桌。"
用户Sambit003则表示:"评论区和问题本身就是每个人都在经历的'绝对电影'时刻。"
Q&A
Q1:Claude Opus 4.6智能体团队是如何工作的?
A:智能体团队中多个Claude实例在共享代码库上并行工作,无需人类主动干预。研究员构建了一个框架让Claude进入简单循环,当完成一项任务时立即开始下一项任务,每个智能体自己决定如何行动。
Q2:这个C编译器项目花费了多少成本和资源?
A:项目历时近两周,进行了近2000次Claude Code会话,消耗了20亿个输入Token和生成了1.4亿个输出Token,总成本接近20000美元。最终产生了一个10万行的编译器,能够在x86、ARM和RISC-V架构上构建Linux 6.9。
Q3:这个AI生成的编译器效果如何?
A:编译器能够成功构建许多项目,但并非全部,还不是真正编译器的即插即用替代品。生成的代码效率不高,Rust代码质量合理但远未达到专业程序员的水准。
热门跟贴