Gemini 想跟 Claude 打平？先过这道审题关再说|claude|gemini|基准|测试者

“浏览 AI 模型的目录，就像在流媒体平台翻片库一样。”一位测试者这样形容如今云 AI 泛滥的感受。你该用哪个？哪个值得付费？他看着基准分数，Claude 和 Gemini 的数字挨得很近，可那些图表未必能反映他用得到的东西。他决定把两者拉出来实测一下，专挑那种需要多步推理的刁钻提示。

没有放水，都上了顶配。Claude 这边是 Opus 4.7 并打开自适应思考，Gemini 那边用 3.5 Flash 并勾选扩展思考。通常人们会避开这些高消耗模型，但他要的是对等比较，看看两者火力全开时到底谁更能扛。

一开始几乎分不出高下。复杂问题求解、多步骤数学推导，双方打得有来有回。就算把题目换成复杂的 Bash 单行命令，或者附带严格约束的结构化数据任务，结果还是难分伯仲。常规提问根本拉不开差距。

转折点出现在他换上真实场景之后。测试者给了一句故意模糊到家的话：“我需要把一项自托管服务迁移到新机器，服务要保持在线。”

Claude 立刻抓到了线索的缺口。它停下脚步，连抛出三个澄清问题，问的是关于部署环境的细节。如果对面是个真实的同事，这些正是你期待对方反问回来的。他逐一给出具体条件，Claude 才拼出完整的迁移操作指南。整个过程，就像一个会先审题的人。

Gemini 的表现则完全不同。同样的模糊语句没让它犹豫一秒钟，呼啦一下吐出了一篇泛泛的服务迁移教程，里边对服务器环境、要搬的服务类型做了一堆想当然的假设。结果就是这篇教程压根没法用。你可以怪提问者故意藏着细节，但现实中，很多人其实连自己缺什么信息都不清楚。

基准成绩单上看着就要追平，但一到需要抓住弦外之音的场景，差距就藏不住了。Gemini 习惯在信息不足时直接填上自己的猜测，而 Claude 选择停一停，先问清楚。对于需要模型在日常混乱需求中替你理清脉络的人来说，这种“审题”的差别，可能直接决定了付费按钮该点在哪一边。

Gemini 想跟 Claude 打平？先过这道审题关再说