Anthropic公司Claude Opus 4.6模型花费两万美元尝试编写C编译器|linux|opus|代码|智能体|正式版模型|程序员|编译器

Anthropic安全防护团队研究员Nicholas Carlini在一项实验中，让新发布的Opus 4.6模型构建C编译器，这让他感到"兴奋"、"担忧"和"不安"。这一实验也让GitHub上的许多观察者产生了质疑。

Carlini在与Opus 4.6官方发布同步的博客中详细介绍了这项被他称为"智能体团队"的实验。他表示："我让16个智能体从零开始编写基于Rust的C编译器，要求能够编译Linux内核。经过近2000次Claude Code会话和20000美元的API成本后，智能体团队产生了一个10万行的编译器，能够在x86、ARM和RISC-V架构上构建Linux 6.9。"

实验设计与自主工作机制

据Carlini介绍，在智能体团队中，"多个Claude实例在共享代码库上并行工作，无需人类主动干预"。一个关键任务是解决"需要操作员在线并可协同工作"的问题，这意味着消除Claude Code等待人类指示下一步行动的需求。

"为了促进持续的自主进展，我构建了一个框架，让Claude陷入简单循环中...当它完成一项任务时，立即开始下一项任务。"Carlini继续说道："我让每个Claude智能体自己决定如何行动。大多数情况下，Claude会选择'下一个最明显的'问题。"

成本与效果分析

在近两周的时间里，通过近2000次Claude Code会话，Opus 4.6消耗了20亿个输入Token和生成了1.4亿个输出Token，总成本接近20000美元。Carlini表示，这使其成为"极其昂贵的项目"，但"这个总成本只是我自己完成这项工作成本的一小部分，更不用说整个团队了"。

实验结果与局限性

实验产生的编译器能够成功构建许多项目，但并非全部。它还不是真正编译器的即插即用替代品。此外，生成的代码效率不高，Rust代码质量"合理但...远未达到专业Rust程序员可能产生的质量"。

Carlini得出结论："智能体团队展示了自主实现整个复杂项目的可能性。"但作为前渗透测试专家，他表示完全自主开发带来了真正的风险。"程序员部署他们从未亲自验证过的软件的想法确实令人担忧。"最终，这个实验"让我兴奋，但也让我感到不安"。

社区反馈与争议

GitHub上的评论更加直接，特别是因为他们认为20000美元的价格标签忽略了其他一些因素，比如模型最初训练时使用的大量其他程序员代码。

用户mohswell评论道："如果我去超市，偷了他们所有面包的一点点，然后把它们拼在一起，没人会说我从零开始做面包。他们会说我是小偷。如果这是'从零开始'，那我的烹饪就是从农场到餐桌。"

用户Sambit003则表示："评论区和问题本身就是每个人都在经历的'绝对电影'时刻。"