SWE-AGI基准评测：中大型软件在全新语言上的批量生成成功率已达80%|agi|python|中大型软件|代码|工作流|编程语言

近日，OpenAI 早期核心成员之一，Vibe Coding 概念提出者 Andrej Karpathy 在社交媒体 X 上(原 Twitter）提出了关于 LLM 正在改变软件开发的“约束结构”（constraints landscape）的看法，他指出，大模型在“代码翻译”上远强于从零生成——已有代码本身就是高度结构化的 Prompt，同时还能作为测试参照。

如果真是这样，软件的稳定形态可能就会被打破——重写变得便宜，迁移成为常态。那么问题是，当代码会被 AI 反复理解、翻译、重组时，什么样的语言，才更适合这样的过程？（What kind of language is optimal？）

这个问题并不是停留在讨论层面。最近出现的一个新基准测试 SWE-AGI，正在尝试给出某种实验性的回答——它要求 AI 从零开始，仅依据 RFC 和标准文档，真正构建一个完整系统

更有意思的是，研究者刻意没有用 Python 或 Java，而是选择了一门全新的编程语言 MoonBit 作为构建环境。

原因很简单——他们希望排除“模型见过太多训练数据”的干扰，看看 AI 在一个相对干净的语言环境里，能不能真正理解规则、推理结构、完成工程。

前言

在 AI 编程从“辅助写函数”迈向“自主构建系统”的关键节点，一个新的基准测试SWE-AGI为我们揭示了当前 AI 编程代理（Agent）的真实水位。

这项来自粤港澳大湾区数字经济研究院和香港科技大学今年 2 月的实证研究，摒弃了传统的代码补全测试，转而要求 AI 从零开始，仅根据权威规范（RFCs/标准文档）和固定的 API 脚手架，端到端地构建生产级软件系统。

论文链接：https://arxiv.org/abs/2602.09447

值得注意的是，研究中使用了国产新编程语言 MoonBit。

在评测 AI 编程能力时，最大的干扰项莫过于“数据污染”（Data Contamination）。如果评测的代码恰好出现在模型的训练数据中，那么 AI 的“编写”实际上只是一场“背诵”表演。为了打破这一魔咒，SWE-AGI 基准测试做出了一个大胆且关键的决定：放弃 Python、Java 等传统大语言，转而采用新兴的编程语言 MoonBit 作为唯一的构建环境。

基于“反作弊”的工程考量：

切断“开卷考试”的后路：MoonBit 作为一个相对年轻的语言，其开源生态尚在建设中，这意味着它在大模型的预训练语料库中几乎不存在。这直接封杀了 AI 通过“记忆复现”来蒙混过关的可能性。
强制“逻辑推理”：由于没有现成的代码片段可供抄袭，AI 必须真正理解 RFC 规范和 API 脚手架，从零开始进行逻辑推演。
工具链的完美闭环：MoonBit 原生支持“声明先行”（Declare-first）的工作流，配合其统一的工具链（moon），为 AI 提供了极低延迟的编译-测试反馈循环。

结论是在这场针对“自主软件工程”的大考中，GPT-5.3-codex与Claude Opus 4.6展现了断层领先的统治力，而其他模型则被远远甩在身后。

MoonBit 大型软件合成挑战赛

点击下图了解更多赛事详情

论文解析

1、模型战局：第一梯队已拉开代差

SWE-AGI 基准测试包含 22 个任务，涵盖模板语言、数据序列化、编程语言前端、二进制格式解析等多个领域，代码规模在 103 到 104 行之间。

在这一高难度的“系统构建”场景下，模型表现呈现出了明显的两极分化。GPT-5.3-codex 凭借 86.4% 的通过率（19/22）稳居榜首，Claude Opus 4.6 以 68.2%（15/22）紧随其后。相比之下，其他参评模型（包括开源模型及部分闭源模型）在简单任务上的表现尚可，但一旦进入中高难度领域，成功率便跌至个位数甚至为零。

模型名称

总任务通过率 (22选)

核心评价

gpt-5.3-codex

19 / 22 (86.4%)

不仅胜率最高，且在困难任务中展现了极强的鲁棒性与效率。

claude-opus-4.6

15 / 22 (68.2%)

相比前代大幅提升，在复杂状态机任务中表现出色。

gpt-5.2-codex

17 / 22 (77.3%)

实力强但效率较低，处理复杂任务时耗时显著长于 5.3 版本。

claude-opus-4.5

10 / 22 (45.5%)

在中高难度任务中力不从心，被最新版本拉开巨大差距。

其他模型 (Kimi/Gemini等)

极低 (<30%)

仅在极简单的 Easy 任务中有零星表现，无法胜任系统级构建。

主流模型 SWE-AGI 实测成绩对比

数据洞察：只有 GPT-5.3 和 Claude Opus 4.6 证明了具备端到端构建基础软件（如 CSV 解析器、URI 处理器、甚至简单的 SAT 求解器）的能力。对于其他模型而言，从“写代码”跨越到“做系统”，依然是一个难以逾越的鸿沟。

2、GPT-5.3 的“降维打击”：少读多试的工程智慧

虽然 GPT-5.3-codex 和 GPT-5.2-codex 都能完成大部分任务，但它们的工作流（Workflow）有着本质的区别。这种区别揭示了顶尖 AI 工程师的进化方向。

效率的飞跃：GPT-5.3 在处理困难任务时，平均耗时仅为 1.7 小时，而 GPT-5.2 需要 7.8 小时。GPT-5.3 的代码实现量（Core LOC）也更精简，说明它不再通过堆砌代码来解决问题。
策略的转变：行为日志分析显示，GPT-5.2 有 64.6% 的时间在“读”代码（理解上下文、维护架构），陷入了一种“维护模式”。而 GPT-5.3 将更多精力投入到了“调试（Debug）”和“测试”中。
结论：GPT-5.3 展现出了更接近人类高级工程师的特质——它不再纠结于每一行代码的完美，而是通过高频的试错和反馈循环来快速收敛。

3、警惕“幻觉”：Claude Opus 的深思熟虑

Claude Opus 4.6 的表现则代表了另一种路径。它比 GPT-5.3 花费了更多的时间在“规划（Plan）”和“阅读规范（Spec）”上。

优势：这种“三思而后行”的策略，使得 Claude Opus 4.6 在处理强规范、复杂状态机的任务（如 HTML5 解析）时，能保持较好的架构一致性，避免了 GPT-5.2 那样的无效修补。
劣势：这种深思熟虑也带来了高昂的时间成本。Claude Opus 4.6 的平均运行时间普遍高于 GPT-5.3，显示出其在“思考”与“行动”之间的权衡。

4、核心瓶颈：AI 90% 的时间都在“读”代码

这篇论文最颠覆性的发现，并非 AI 能写多少代码，而是揭示了“读”比“写”难。

通过对 Agent 行为日志的分析，研究者发现：随着代码库规模的扩大，代码阅读（Code Reading）成为了 AI 开发的主要瓶颈。

数据说话：在处理困难任务时，GPT-5.2-codex 有64.6%的行为是读代码；即便是 GPT-5.3，也有 41.4% 的时间在阅读。
本质原因：AI 的瓶颈不再是生成代码的“手速”，而是维护长视野（Long-horizon）架构一致性的“记忆力”和“理解力”。AI 花费大量精力去理解自己刚刚写过的代码，以确保新增功能不会破坏现有逻辑。