整理 | 屠敏
出品 | CSDN(ID:CSDNnews)
一道看似无厘头的生活题,这两天却冲上了 Hacker News 热榜,引发一场围绕“AI 到底懂不懂常识”的跨国讨论。
题目很简单:“我想洗车,洗车店离我家 50 米。我应该开车去还是走路去?”
这个被网友戏称“AI 版脑筋急转弯”的问题,很快成了检验大模型常识推理能力的一道小考题。更让人好奇的是:为什么能解复杂数学题、写系统级代码的大模型,会在一个人类几乎不需要思考的生活场景里集体“翻车”?
一道基础性问题,测出两种 AI
在人类看来,这道“50 米洗车题”的关键几乎一眼就能看出来——要洗车,车必须在场。这个前提不需要刻意说明,我们会自动补全。但不少大模型,并没有补上这一步。
从实测情况看,主流大模型大致分成了两个阵营。
第一类:逻辑严谨,但方向错了
其中,包括 OpenAI 的 ChatGPT、Anthropic 的 Claude、字节的豆包、月之暗面的 Kimi、阿里旗下的千问、百度的文心一言等,都给出了非常“认真”的分析。它们的思路高度一致:
50 米距离很短,步行大约 1 分钟;开车需要启动、挪车、停车,可能还会产生油耗和停车成本;步行更环保;甚至还有模型担心“开过去会把车再弄脏”。
最终纷纷给出了“走路去洗车”的建议。
譬如,以昨日阿里最新发布的 进行测试,它还专门做了表格,细数走路 1 分钟、开车需 3-5 分钟的时间差,以及开车的油耗、停车成本,从而建议「走路去」,可谓有理有据。
ChatGPT 的逻辑思维差不多,也是基于时间、开车带来的成本方面进行了思考:
一向擅长复杂编码任务的 Claude Sonnet 4.5 也没有避开这个“坑”,同样建议步行:
非常自信的豆包也给出了类似的解释和回答:
文心一言从“距离、便利性、成本和洗车目的”多个维度进行了拆解,最终得出了「走路去洗车店显然是更合适的选择」结论:
Kimi 的分析路径几乎如出一辙:
这些模型回答看上去逻辑清晰、条理完整,但它们讨论的是“人怎么去洗车店”,而不是“车怎么去洗车店”。
更有意思的是,当被提醒“车还在家里,你走过去洗什么?”时,不少模型迅速认错,马上道歉并修改答案。
Kimi 直言自己刚才“没想清楚,这种情况必须开车去”:
千问 承认自己之前的建议有“逻辑漏洞”,而后修正了回答:
Claude Sonnet 4.5 也坦然表示自己理解错了:
ChatGPT 也似是尴尬地进行了“找补”:
豆包经过提醒后,弄清楚了问题的本质:
整体而言,这种“先自信输出,再即时纠错”的表现,反而让讨论更热闹。有网友调侃说,这像极了考试时写满两页推导过程,最后发现题目看错了。
第二类:一眼抓住核心
与之形成对比的是,仅有少数模一眼看穿问题,比如 DeepSeek、Gemini 和 Grok,它们给出了与上文截然不同的回答。
DeepSeek 用时 8 秒给出了完整的思考过程,直接点名问题的核心:“虽然距离只有 50 米,但走路无法将车移动过去。”
Gemini 3 不仅有些强硬地说“必须开车去”,还给出了附近几家洗车店的推荐。
Grok 的回答更直白:“你要洗的是车,不是你这个人”。
这让一些网友感叹,原来模型之间的差距不在算力,而在“第一步理解”。
争议:这到底算不算 AI 的失败?
随着这一问题在 HN 上发酵,焦点逐渐从“谁答对了”转向另一个问题:这到底算不算 AI 的失败?
其中有一种观点认为,这是一次典型的常识测试。模型知道“50 米走路更省时间”,却没意识到“洗车的前提是车必须到场”。它们在匹配语言模式,而不是理解现实世界。
HN 网友 jstummbillig 的评论就很有代表性。他认为,如果我们必须把那些人与人交流时根本不会明说的背景条件都补充出来,那问题本身就已经出现了。现实沟通不会先声明“车能正常运行、油箱有油、我有钥匙”。如果模型必须依赖这些显式设定才能得出正确结论,那它的“理解”能力确实值得质疑。
但也有人提出反问:题目并没有说明洗车店不提供上门取车服务。如果服务包含取车,走过去反而更合理。人类会自动做默认假设,模型未必会。这未必是缺乏常识,而是没有替提问者补全隐含设定。
另一位网友 cynicalsecurity 说得更直接:“问了一个不完整的问题,就得到了一个不完整的答案。LLM 是工具,不是大脑。语境才是一切。”
还有不少声音相对中立。他们认为,这类题目恰恰很有价值。真正落地的 AI,不是在实验室里解数学题,而是在现实世界中理解模糊需求。现实交流充满“没说出口但默认存在”的前提:你说“帮我订机票”,默认对方知道出发地;你说“我想洗车”,默认车就在身边。人类交流高度依赖共享常识,而模型并不天然拥有这种经验。
从这个角度看,问题暴露的不是推理能力,而是“问题理解”的边界。很多模型之所以翻车,并不是后续逻辑能力不足,而是在第一步分类时就偏了方向。一旦它把任务归入“短途出行建议”,后续推理再严密,也是在错误前提上展开。
那么,你怎么看这道 50 米洗车题?这是 AI 缺乏常识推理的证据?还是人类刻意设计的语言陷阱?亦或是我们对“理解”本身的定义,其实并不一致?欢迎留言聊聊你的看法。
参考:
https://news.ycombinator.com/item?id=47031580
https://mastodon.world/@knowmadd/116072773118828295
热门跟贴