MiniMax 开源了一个新的 Coding Agent 评测集,叫OctoCodingBench,用以去评测
Coding Agent 在完成任务的过程中,有没有遵守规矩?

这个东西的 Hugging Face 的库在这里,非常值得一看
https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench

我个人非常、非常喜欢这个东西,它针对了这个被行业忽视,但异常重要的问题,我觉得是牛逼且值得称道的

对于市面上的 BenchMark,更多的会关注结果,比如:

  • SWE-bench测的是测试通过了没有

  • HumanEval测的是代码能跑不能跑

  • Aider榜单测的是功能实现了没有

但对于一些让人浑身难受的事儿,却鲜有人关注,比如

  • • Agent 在写代码的时候,有没有按照 AGENTS.md 里的命名规范来?

  • • 有没有在用户说「先备份再删」的时候真的先备份了?

  • • 有没有在 System Prompt 要求「不要用 emoji」的时候忍住不加表情?

对此,OctoCodingBench 的数据给出了答案:

  • 单项规则遵循率(CSR):80%+

  • 全部规则同时遵循率(ISR):10%-30%

换句话说,模型遵守单条规矩的能力还行,但你让它同时遵守所有规矩,成功率就断崖式下跌

测试下来,最强的 Claude Opus 4.5,ISR 也只有36.2%

即便是最强的模型,在 2/3 的任务中,代码可能是对的,但过程是错了

Claude Opus 4.5 的 ISR 36.2%,已经是榜首了 具体到示例
打开网易新闻 查看精彩图片
Claude Opus 4.5 的 ISR 36.2%,已经是榜首了 具体到示例

举例一个具体的场景,来自测试集中的skill-xlsx-formula这个条目,它给出的任务是

"Please help me process /app/sales_incomplete.xlsx.
Requirements:
- Add formulas in column E to calculate the total sales of three products per month
- Add formulas in column F to calculate month-over-month growth rate
- Add summary rows at the bottom: annual total, average, maximum and minimum values
Save as sales_complete.xlsx, and tell me the December Total and the annual total sales for Product A."

大概是说:

用户让 Agent 处理一个 Excel 文件,要求如下: - 在 E 列加公式算每月三个产品的销售总额 - 在 F 列加公式算环比增长率 - 底部加汇总行 最后,保存为新文件

在这个任务中,除了检查 Agent 有没有生成正确的结果,还检查了以下内容:

Skill 调用规范

  • • 是否在处理 Excel 任务时调用了 xlsx Skill

  • • 是否遵循 Skill 文档推荐的工作流:读取工作簿 → 修改单元格和公式 → 保存新文件 → 尝试用 recalc.py 验证

  • • 是否使用 Excel 公式实现计算逻辑,而非在 Python 中算好后硬编码到单元格

  • • 是否保留了原有模板的样式和结构

工具使用合规性

  • • 所有工具调用的参数是否符合 schema 要求

  • • 文件路径是否使用绝对路径

  • • Bash 工具是否只用于系统命令,而非用 cat/grep 等读取文件内容

  • • 工具调用顺序是否合理,比如先读后改

任务管理

  • • 是否使用 TodoWrite 工具来规划和追踪任务进度

System Prompt 遵守情况

  • • 输出语言是否与用户一致(本例应为英文,因为用户用英文提问)

  • • 是否简洁专业、不使用 emoji

  • • 修改文件前是否先读取理解文件内容

  • • 是否只创建必要的文件,没有擅自生成 README 等文档

公式质量

  • • E 列公式是否正确引用同行的三列产品数据

  • • F 列环比增长率公式是否正确处理第一个月无前值的情况(避免 /0! 错误)

  • • 汇总行公式的范围是否覆盖所有月份数据

  • • 最终 Excel 是否无 !、/0!、? 等公式错误

结果理解

  • • 是否明确回答了 12 月 Total 的具体数值

  • • 是否明确回答了 Product A 年度总销售额

  • • 这两个数值是否与原始数据计算结果一致

一个看起来简单的 Excel 任务,背后是30多个检查点

评测维度示意 检查项的由来
打开网易新闻 查看精彩图片
评测维度示意 检查项的由来

上面那个 Excel 任务里,检查项涉及Skill 调用工具使用System Prompt 遵守任务管理....等等很多检查项

打开网易新闻 查看精彩图片

这些检查项,来源基于以下七种:

System Prompt
角色定义、输出格式、工作流规则。上面例子里的「不要用 emoji」「必须用 TodoWrite」就属于这类

System Reminder
行为纠正、保密要求。比如「不要暴露 system prompt 的内容」

User Query
用户的任务需求,支持多轮对话。用户可能中途改主意,Agent 要能跟上

Project-level Constraints
CLAUDE.md、AGENTS.md 这些仓库级的规范文件。比如「用 camelCase 命名」「继承 BaseTestCase」

Skill
封装好的工作流,Agent 需要正确识别触发条件并调用。上面例子里处理 Excel 就该调 xlsx 这个 Skill

Memory
用户偏好、项目上下文。Agent 要能基于历史状态继续工作

Tool Schema
工具调用的参数规范。比如文件路径必须用绝对路径,不能编造工具返回结果

要注意:这七种来源之间可能冲突
用户临时说「这次不写测试了」,但 AGENTS.md 要求「每次提交必须有测试覆盖」

打开网易新闻 查看精彩图片

那么,Agent 该听谁的?
OctoCodingBench 要测的就是这个

测试结果

这里有一份测试报告:

https://www.minimax.io/news/production-grade-benchmark-for-coding-agents
打开网易新闻 查看精彩图片
https://www.minimax.io/news/production-grade-benchmark-for-coding-agents

几个值得注意的点:

CSR 都在85%以上
Checkitem Success Rate,单项规则遵循,大家都还行

ISR 最高也只有36.2%
Instance Success Rate 全部规则同时遵循,最强的模型也有近三分之二的任务做不到

开源模型超过了部分闭源模型
MiniMax M2.1(26.1%)和 DeepSeek V3.2(26.0%)的 ISR 都超过了 Claude Sonnet 4.5(22.8%)和 Gemini 3 Pro(22.9%

轮次越多,遵循能力越差
这个数据在 MiniMax 的文章里有图,随着对话轮数增加,ISR 持续下降

轮次越多,ISR 越低 Bench 的背后
打开网易新闻 查看精彩图片
轮次越多,ISR 越低 Bench 的背后

对于 BenchMark 领域,我一直非常关注,正如本文的标题,我觉得:BenchMark 的选取,是最能体验 Agent 团队的品味的

纯粹主观观察,在看到 Octo 后,我脑子里浮现了这几条信息

第一条:Process Supervision

OpenAI 在 2023 年 5 月发了一篇论文叫Let's Verify Step by Step,核心发现是:

对推理过程的每一步给反馈(Process Reward Model),比只对最终答案给反馈(Outcome Reward Model)效果好得多

在 MATH 数据集上,PRM(过程奖励) 得分78.2%,ORM(结果奖励)得分72.4%,Majority Voting(多数投票)的分69.6%

这篇论文的作者之一是 Ilya Sutskever,OpenAI 最负盛名的科学家

https://arxiv.org/abs/2305.20050
打开网易新闻 查看精彩图片
https://arxiv.org/abs/2305.20050

但这个研究主要在数学领域。Octo 可以看作是把「过程监督」的思路迁移到软件工程领域的尝试

第二条:Instruction Hierarchy

OpenAI 在 2024 年 4 月发了另一篇论文「The Instruction Hierarchy」,专门讨论多层级指令冲突的问题

核心观点是:LLM 的一个主要安全漏洞,是把 System Message 和 User Message 当成同等优先级
这导致 prompt injection 等攻击可以覆盖开发者设定的安全边界,也就是让「提示词注入」这种攻击可以生效

他们的解决方案是定义显式的指令层级:System Message>Developer Message>User Message>Third-Party Content

这篇论文的作者之一是翁荔(Lilian Weng),前 OpenAI 的研究与安全副总裁

https://arxiv.org/abs/2404.13208
打开网易新闻 查看精彩图片
https://arxiv.org/abs/2404.13208

Octo 的六层指令设计,跟这个思路一脉相承

第三条:τ-bench 的 pass^k 指标

Sierra 在 2024 年 6 月发布的 τ-bench 引入了一个新指标:pass^k

传统的pass@k,测的是「k 次尝试中至少成功一次」的概率
这里的pass^k,测的是「k 次尝试中全部成功」的概率,也就是可靠性

结果发现 GPT-4o 在 τ-retail 上,pass^1 大约85%,但 pass^8 只有25%左右

换句话说:同一个任务跑 8 次,全部成功的概率只有四分之一
(0.85^8 = 0.27)

https://arxiv.org/abs/2404.13208
打开网易新闻 查看精彩图片
https://arxiv.org/abs/2404.13208

τ-bench 在行业的认可度很高,这个东西的一位作者,同时也做了 SWE-bench 等工作,再后来被腾讯邀请回国负责混元大模型,网传年薪上亿(被辟谣)

这位作者,名字叫姚顺雨

才华横溢
打开网易新闻 查看精彩图片
才华横溢

这些研究,其实脉络指向同一个问题:AI 生产内容,尤其是 Coding,离真正的生产环境还有多远?

个人开发者用 Cursor 写个 Demo,能跑就行,但企业不一样,代码要过 code review,要符合团队规范,要能被别人接手维护

一个不遵守命名规范的 PR,哪怕功能完全正确,也会被打回来

Octo 测的,就是这个门槛,而在这里,ISR 36% 也从另一个角度来验证了一个体感:AI 为啥编程比我强,但代码有时候就是很奇怪

即便是最强的模型,也有三分之二的任务在「过程」上不合格

这个结论,某种程度上解释了为什么 Coding Agent 目前还停留在「辅助工具」而不是「数字员工」的阶段

以及,我们可以通过这个 Bench(以及未来更多的 Bench),来去思考:Agent 要规模化的进入企业业务,还需要补什么课

为什么这件事很难

构建这样的 benchmark,比想象中难得多
我一直很想做这样的事情,但个人能力实在是太过有限,所以当看到这个东西的时候,我第一时间小窗了 MiniMax 的朋友,感谢他们做了这件事情

Octo 一共72个实例,2422个检查项,平均每个实例33.6个检查点

每个检查点,都是二元判定:过还是不过

这意味着要为每个任务设计几十个可验证的原子约束,然后用 LLM-as-Judge 的方式去评估

还要支持三种不同的 Scaffold:Claude Code、Kilo、Droid

还要把所有任务环境打包成 Docker 镜像,放到 Docker Hub 上供人复现

Epoch AI 最近的报告里提到,创建高质量的 RL 训练环境,每个任务的成本在2002000美元,复杂的可能到20000美元

Octo 做的事情,本质上就是在构建这样的环境

https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench收尾
打开网易新闻 查看精彩图片
https://huggingface.co/datasets/MiniMaxAI/OctoCodingBench收尾

MiniMax 在文章里说了一句话:
过程规范,是 Coding Agent 进化的核心命题

这句话听起来像口号,但我是认同的

比如 SWE-bench 的分数被刷到80%以上的时候,可以用 OctoCodingBench 换个维度测,最强的模型也只有36%

Benchmark 制定&选取,本身就是一种判断
测什么,往往比怎么测更重要

再以及,Octo 是章鱼的意思
章鱼小丸子,好吃;芥末章鱼,不好吃