“浏览 AI 模型的目录,就像在流媒体平台翻片库一样。”一位测试者这样形容如今云 AI 泛滥的感受。你该用哪个?哪个值得付费?他看着基准分数,Claude 和 Gemini 的数字挨得很近,可那些图表未必能反映他用得到的东西。他决定把两者拉出来实测一下,专挑那种需要多步推理的刁钻提示。

没有放水,都上了顶配。Claude 这边是 Opus 4.7 并打开自适应思考,Gemini 那边用 3.5 Flash 并勾选扩展思考。通常人们会避开这些高消耗模型,但他要的是对等比较,看看两者火力全开时到底谁更能扛。

打开网易新闻 查看精彩图片

一开始几乎分不出高下。复杂问题求解、多步骤数学推导,双方打得有来有回。就算把题目换成复杂的 Bash 单行命令,或者附带严格约束的结构化数据任务,结果还是难分伯仲。常规提问根本拉不开差距。

转折点出现在他换上真实场景之后。测试者给了一句故意模糊到家的话:“我需要把一项自托管服务迁移到新机器,服务要保持在线。”

Claude 立刻抓到了线索的缺口。它停下脚步,连抛出三个澄清问题,问的是关于部署环境的细节。如果对面是个真实的同事,这些正是你期待对方反问回来的。他逐一给出具体条件,Claude 才拼出完整的迁移操作指南。整个过程,就像一个会先审题的人。

Gemini 的表现则完全不同。同样的模糊语句没让它犹豫一秒钟,呼啦一下吐出了一篇泛泛的服务迁移教程,里边对服务器环境、要搬的服务类型做了一堆想当然的假设。结果就是这篇教程压根没法用。你可以怪提问者故意藏着细节,但现实中,很多人其实连自己缺什么信息都不清楚。

基准成绩单上看着就要追平,但一到需要抓住弦外之音的场景,差距就藏不住了。Gemini 习惯在信息不足时直接填上自己的猜测,而 Claude 选择停一停,先问清楚。对于需要模型在日常混乱需求中替你理清脉络的人来说,这种“审题”的差别,可能直接决定了付费按钮该点在哪一边。