打开网易新闻 查看精彩图片

近日,OpenAI 早期核心成员之一,Vibe Coding 概念提出者 Andrej Karpathy 在社交媒体 X 上(原 Twitter)提出了关于 LLM 正在改变软件开发的“约束结构”(constraints landscape)的看法,他指出,大模型在“代码翻译”上远强于从零生成——已有代码本身就是高度结构化的 Prompt,同时还能作为测试参照。

打开网易新闻 查看精彩图片

如果真是这样,软件的稳定形态可能就会被打破——重写变得便宜,迁移成为常态。那么问题是,当代码会被 AI 反复理解、翻译、重组时,什么样的语言,才更适合这样的过程?(What kind of language is optimal?)

这个问题并不是停留在讨论层面。最近出现的一个新基准测试 SWE-AGI,正在尝试给出某种实验性的回答——它要求 AI 从零开始,仅依据 RFC 和标准文档,真正构建一个完整系统

更有意思的是,研究者刻意没有用 Python 或 Java,而是选择了一门全新的编程语言 MoonBit 作为构建环境。

原因很简单——他们希望排除“模型见过太多训练数据”的干扰,看看 AI 在一个相对干净的语言环境里,能不能真正理解规则、推理结构、完成工程。

打开网易新闻 查看精彩图片

前言

在 AI 编程从“辅助写函数”迈向“自主构建系统”的关键节点,一个新的基准测试SWE-AGI为我们揭示了当前 AI 编程代理(Agent)的真实水位。

这项来自粤港澳大湾区数字经济研究院和香港科技大学今年 2 月的实证研究,摒弃了传统的代码补全测试,转而要求 AI 从零开始,仅根据权威规范(RFCs/标准文档)和固定的 API 脚手架,端到端地构建生产级软件系统。

  • 论文链接:https://arxiv.org/abs/2602.09447

值得注意的是,研究中使用了国产新编程语言 MoonBit。

在评测 AI 编程能力时,最大的干扰项莫过于“数据污染”(Data Contamination)。如果评测的代码恰好出现在模型的训练数据中,那么 AI 的“编写”实际上只是一场“背诵”表演。为了打破这一魔咒,SWE-AGI 基准测试做出了一个大胆且关键的决定:放弃 Python、Java 等传统大语言,转而采用新兴的编程语言 MoonBit 作为唯一的构建环境。

基于“反作弊”的工程考量:

  1. 切断“开卷考试”的后路:MoonBit 作为一个相对年轻的语言,其开源生态尚在建设中,这意味着它在大模型的预训练语料库中几乎不存在。这直接封杀了 AI 通过“记忆复现”来蒙混过关的可能性。

  2. 强制“逻辑推理”:由于没有现成的代码片段可供抄袭,AI 必须真正理解 RFC 规范和 API 脚手架,从零开始进行逻辑推演。

  3. 工具链的完美闭环:MoonBit 原生支持“声明先行”(Declare-first)的工作流,配合其统一的工具链(moon),为 AI 提供了极低延迟的编译-测试反馈循环。

结论是在这场针对“自主软件工程”的大考中,GPT-5.3-codexClaude Opus 4.6展现了断层领先的统治力,而其他模型则被远远甩在身后。

打开网易新闻 查看精彩图片

MoonBit 大型软件合成挑战赛

点击下图了解更多赛事详情

打开网易新闻 查看精彩图片

论文解析

1、模型战局:第一梯队已拉开代差

SWE-AGI 基准测试包含 22 个任务,涵盖模板语言、数据序列化、编程语言前端、二进制格式解析等多个领域,代码规模在 103 到 104 行之间。

在这一高难度的“系统构建”场景下,模型表现呈现出了明显的两极分化。GPT-5.3-codex 凭借 86.4% 的通过率(19/22)稳居榜首,Claude Opus 4.6 以 68.2%(15/22)紧随其后。相比之下,其他参评模型(包括开源模型及部分闭源模型)在简单任务上的表现尚可,但一旦进入中高难度领域,成功率便跌至个位数甚至为零。

模型名称

总任务通过率 (22选)

核心评价

gpt-5.3-codex

19 / 22 (86.4%)

不仅胜率最高,且在困难任务中展现了极强的鲁棒性与效率。

claude-opus-4.6

15 / 22 (68.2%)

相比前代大幅提升,在复杂状态机任务中表现出色。

gpt-5.2-codex

17 / 22 (77.3%)

实力强但效率较低,处理复杂任务时耗时显著长于 5.3 版本。

claude-opus-4.5

10 / 22 (45.5%)

在中高难度任务中力不从心,被最新版本拉开巨大差距。

其他模型 (Kimi/Gemini等)

极低 (<30%)

仅在极简单的 Easy 任务中有零星表现,无法胜任系统级构建。

主流模型 SWE-AGI 实测成绩对比

数据洞察:只有 GPT-5.3 和 Claude Opus 4.6 证明了具备端到端构建基础软件(如 CSV 解析器、URI 处理器、甚至简单的 SAT 求解器)的能力。对于其他模型而言,从“写代码”跨越到“做系统”,依然是一个难以逾越的鸿沟。

2、GPT-5.3 的“降维打击”:少读多试的工程智慧

虽然 GPT-5.3-codex 和 GPT-5.2-codex 都能完成大部分任务,但它们的工作流(Workflow)有着本质的区别。这种区别揭示了顶尖 AI 工程师的进化方向。

  • 效率的飞跃:GPT-5.3 在处理困难任务时,平均耗时仅为 1.7 小时,而 GPT-5.2 需要 7.8 小时。GPT-5.3 的代码实现量(Core LOC)也更精简,说明它不再通过堆砌代码来解决问题。

  • 策略的转变:行为日志分析显示,GPT-5.2 有 64.6% 的时间在“读”代码(理解上下文、维护架构),陷入了一种“维护模式”。而 GPT-5.3 将更多精力投入到了“调试(Debug)”和“测试”中。

  • 结论:GPT-5.3 展现出了更接近人类高级工程师的特质——它不再纠结于每一行代码的完美,而是通过高频的试错和反馈循环来快速收敛。

3、警惕“幻觉”:Claude Opus 的深思熟虑

Claude Opus 4.6 的表现则代表了另一种路径。它比 GPT-5.3 花费了更多的时间在“规划(Plan)”和“阅读规范(Spec)”上。

  • 优势:这种“三思而后行”的策略,使得 Claude Opus 4.6 在处理强规范、复杂状态机的任务(如 HTML5 解析)时,能保持较好的架构一致性,避免了 GPT-5.2 那样的无效修补。

  • 劣势:这种深思熟虑也带来了高昂的时间成本。Claude Opus 4.6 的平均运行时间普遍高于 GPT-5.3,显示出其在“思考”与“行动”之间的权衡。

4、核心瓶颈:AI 90% 的时间都在“读”代码

这篇论文最颠覆性的发现,并非 AI 能写多少代码,而是揭示了“读”比“写”难。

通过对 Agent 行为日志的分析,研究者发现:随着代码库规模的扩大,代码阅读(Code Reading)成为了 AI 开发的主要瓶颈。

  • 数据说话:在处理困难任务时,GPT-5.2-codex 有64.6%的行为是读代码;即便是 GPT-5.3,也有 41.4% 的时间在阅读。

  • 本质原因:AI 的瓶颈不再是生成代码的“手速”,而是维护长视野(Long-horizon)架构一致性的“记忆力”和“理解力”。AI 花费大量精力去理解自己刚刚写过的代码,以确保新增功能不会破坏现有逻辑。

打开网易新闻 查看精彩图片

结语:自主软件工程的现状与未来

SWE-AGI 的测试结果告诉我们:在许多实际部署中,瓶颈并非代码生成,而是代码审查、调试、集成和需求澄清。

虽然 GPT-5.3-codex 已经证明了它能像人类一样,从零构建一个标准的二进制解码器或模板引擎,但当面对极其复杂的系统(如完整的 C99 解析器或 Python 子集)时,所有模型的通过率都出现了断崖式下跌。

未来的 AI 编程代理,胜负手将不再是谁的“代码库背得更熟”,而是那些能够通过强静态保障、确定性构建和丰富的自动化检查,将反馈负担从人工转移至机器的编程语言和平台更具优势。

根据 MoonBit 官网数据 https://mooncakes.io/ 显示,MoonBit 在小数据集的语料环境中已积累了近 5,000+ 生态库和千万行级别的代码规模。在这样的数据规模下,模型并非依赖海量历史包袱,而是在一个结构更可控、语义更一致的环境中学习与推理。

如果正如 Karpathy 所说,LLM 正在改变软件的“约束结构”,那么语言本身的结构是否更有利于机器理解,可能就不再是边缘问题。

在这个意义上,MoonBit 的存在,并不是偶然插入的变量,而是一个正在被验证的方向。