百行代码挑模型：三款前沿编程助手实测对比|上下文|代码|新论文|编程

“给我写一个100行内能提供待办事项功能的[语言]文件。”本周放出的这份横向评测，就用同一道简洁到极致的提示词，测了三款前沿编程模型在Go、Python、Node.js与React+TypeScript四个技术栈下的实战编程能力。

这个测试的发起者要求每个模型从零开始生成一个待办事项的REST接口，外加一个待办事项用户界面，所有输出被放进单一文件中，不能超过100行。评判标准不是合成跑分，而是一位资深代码评审者会关注的那些维度：正确性、HTTP语义、错误处理、输入校验、惯用风格以及可维护性。

Claude Sonnet 4.6、GPT-5.4与Gemini 3.1 Pro三位选手全部通过GitHub Copilot通道接入，各项任务产生的输出量级大约都在100行上下或700个输出标记左右。令人注意的是速度差距：Claude Sonnet 4.6完成任务的时间比GPT-5.4快了约42%，比Gemini 3.1 Pro快了约13%。这在实际体验中大概是从等待29秒缩减到20秒的区别，看上去不算夸张，但一旦进入需要多次串行调用的自动化循环任务里，这个差异就会迅速累积放大。

三轮评判的裁判是一个完全独立于这三款模型的存在——Claude Opus 4.7，拥有100万标记的上下文窗口，在Claude Code环境中执行。每一轮评审，它收到的指令如出一辙，只是切换了文件夹名称：“请检查gencode_golang / gencode_python / gencode_node / gencode_reactjs文件夹中的三个文件，告诉我哪段代码更好，为什么？”

为了最大限度降低上下文污染，每一段代码都在一个全新的干净环境里生成，没有之前的对话历史，也没有任何附加说明。除了语言标记，提示词没有任何技术规格，没有端点列表，没有关于跨域设置、REST语义、可访问性的任何暗示。100行的硬上限是故意设置的，目的就是观察模型在做“取舍”时暴露出的倾向——空间就这么大，你不可能面面俱到。

有业界人士迅速解读出这个测试的另一重暗示：三款模型在Copilot中的定位本就不同，GPT-5.4被视为重装选项，Sonnet 4.6担任日常产出的主力，Gemini 3.1 Pro则代表预览级梯队。究竟哪一款适合你的日常开发流程，或许不能只看赛道成绩，更得回到“谁来定义简洁”这个根本问题上。