“给我写一个100行内能提供待办事项功能的[语言]文件。”本周放出的这份横向评测,就用同一道简洁到极致的提示词,测了三款前沿编程模型在Go、Python、Node.js与React+TypeScript四个技术栈下的实战编程能力。

这个测试的发起者要求每个模型从零开始生成一个待办事项的REST接口,外加一个待办事项用户界面,所有输出被放进单一文件中,不能超过100行。评判标准不是合成跑分,而是一位资深代码评审者会关注的那些维度:正确性、HTTP语义、错误处理、输入校验、惯用风格以及可维护性。

打开网易新闻 查看精彩图片

Claude Sonnet 4.6、GPT-5.4与Gemini 3.1 Pro三位选手全部通过GitHub Copilot通道接入,各项任务产生的输出量级大约都在100行上下或700个输出标记左右。令人注意的是速度差距:Claude Sonnet 4.6完成任务的时间比GPT-5.4快了约42%,比Gemini 3.1 Pro快了约13%。这在实际体验中大概是从等待29秒缩减到20秒的区别,看上去不算夸张,但一旦进入需要多次串行调用的自动化循环任务里,这个差异就会迅速累积放大。

三轮评判的裁判是一个完全独立于这三款模型的存在——Claude Opus 4.7,拥有100万标记的上下文窗口,在Claude Code环境中执行。每一轮评审,它收到的指令如出一辙,只是切换了文件夹名称:“请检查gencode_golang / gencode_python / gencode_node / gencode_reactjs文件夹中的三个文件,告诉我哪段代码更好,为什么?”

为了最大限度降低上下文污染,每一段代码都在一个全新的干净环境里生成,没有之前的对话历史,也没有任何附加说明。除了语言标记,提示词没有任何技术规格,没有端点列表,没有关于跨域设置、REST语义、可访问性的任何暗示。100行的硬上限是故意设置的,目的就是观察模型在做“取舍”时暴露出的倾向——空间就这么大,你不可能面面俱到。

有业界人士迅速解读出这个测试的另一重暗示:三款模型在Copilot中的定位本就不同,GPT-5.4被视为重装选项,Sonnet 4.6担任日常产出的主力,Gemini 3.1 Pro则代表预览级梯队。究竟哪一款适合你的日常开发流程,或许不能只看赛道成绩,更得回到“谁来定义简洁”这个根本问题上。