AI高考暴露短板：Claude超字数零分，历史论述近乎完美

被误解的时候能微微一笑

2026-05-08 22:44 ·四川

最近，日本一家名为 LifePrompt 的人工智能公司，用 OpenAI 的 ChatGPT 5.2 Thinking、谷歌的 Gemini 3 Pro 和 Anthropic 的 Claude 4.5 Opus 等几个当前最强的模型，去挑战日本大学入学考试，包括日本最难考的两所大学——东京大学和京都大学，并由日本最大的补习学校“河合塾”的老师们进行阅卷。

结果，AI 不仅通过了考试，而且是以远超人类最高分的“首席合格”成绩通过的。在被认为是日本最难的东京大学理科三类（医学部的主要生源）考试中，ChatGPT 的分数比人类最高分还高出50分。数学科目，ChatGPT 和 Gemini 都拿下了满分。

最让人震撼的不是分数本身，而是进化的速度。

两年前，顶配模型 GPT-4 在同样的考试中全线溃败，连最低录取分数线都没达到。去年，新模型首次勉强过线。今年，它就成了状元。

从不及格到状元，只用了两年时间。

但 AI 在日本高考中的表现，同时也暴露了模型的“偏科”、“愚蠢”和“缺乏常识”。AI光鲜分数下的真实能力边界，藏在考卷的细节里，藏在阅卷老师的评价中。

在东大物理的一道关于焦点距离的题目中，ChatGPT 和 Gemini 都给出了一个带负号的答案。这个答案在物理逻辑上是说得通的，但在日本的物理教育体系里，焦点距离通常被定义为正值。AI的这个错误，不是因为它不懂物理，而是因为它被自己的英语训练数据给“带偏了”。它不知道，或者说没能优先采用日本当地的学术惯例。

在其他科目上大杀四方的 ChatGPT，在东大世界史的考卷上只拿到了15分（满分60分），得分率仅为25%。

与之形成鲜明对比的是 Claude。

Claude 在日本史和世界史的论述题上表现出色，被老师评价为“优等生”、“几乎完美”。这说明不同的模型在能力上出现了显著的分化。

这个现象揭示了“知道什么”和“如何表达”是两种完全不同的能力。GPT 拥有海量的历史知识，但它是一个糟糕的“叙事者”。它无法将这些知识点组织成一个有说服力、有逻辑的论证过程。

这正是我们日常工作中的核心场景。写一份商业计划书、做一次项目汇报、与客户进行一次关键沟通，考验的不仅仅是你是否掌握信息，更是你如何组织信息、传递观点、说服他人的能力。

AI 可以成为我们无穷无尽的知识库和资料助手，但如何将这些原始材料加工成有影响力的最终产品，这个“最后一公里”的整合与表达能力，在很长一段时间内都将是人类的核心价值。一个平庸的分析师和一个顶级的策略顾问，区别就在于此。

另一个普遍存在且非常有趣的问题是，AI 普遍无法遵守“字数限制”这一基本指令。

这个问题看起来很小，但它背后是一个大问题：AI 在“输出控制”上存在巨大缺陷。即便在 prompt 中明确指令，它也无法精确地约束自己的行为。它知道要说什么，但不知道说到哪里该停。它能理解复杂的理论，却无法遵守一个简单的规则。

这在实际应用中是一个巨大的隐患。如果你让AI生成一份摘要，它可能会给你一篇过长的报告。如果你让它根据模板填充内容，它可能会破坏格式。这种“失控”状态说明，AI 仍是一种工具，而不是一个可靠的自主智能体。它依然需要一个能够理解并强制执行各种显性及隐性规则的人类来作为监督。

这个“监工”的角色，不仅仅是检查错别字，更是确保AI的输出符合项目的所有规范、约束和目标。在未来，管理一个AI团队，或许就像管理一群天赋异禀但毫无纪律的实习生，人类管理者的价值就在于设定框架、监督过程、修正结果。

这次测试的结果显示，不同的AI已经演化出了截然不同的“模型人格”。

Gemini 精力旺盛、知识面广但偶尔会犯低级错误。它在数学解题时倾向于用复杂的代数运算“硬算”出结果，而不是像GPT那样寻找更巧妙的几何解法。它甚至在一次化学计算中犯下了“1/2 × 3 = 15”这种令人啼笑皆非的低级错误。

这种“人格化”差异告诉我们，“AI”不是一个单数概念，而是一个复数概念。未来不存在一个万能的AI，而是会存在一个由不同特长的AI组成的工具箱。

日本人工智能学会的负责人、庆应义塾大学教授栗原聪对此评论道：“让人类和AI在同一个赛场上竞争是没有意义的。就像我们不会让人和计算器比赛算术一样。”

当AI能在标准化考试上轻松碾压人类冠军时，我们必须承认，这类考试的价值已经改变了。它不再是衡量人类知识水平的标尺，而沦为了衡量机器能力进化的基准。

这迫使教育系统必须做出变革，从考查“记忆和计算”转向考查“创造力、批判性思维和独创性”——这些恰恰是AI在此次考试中暴露出的短板。

任何可以被标准化、可以被量化考核、有固定答案的技能，其价值都在被快速稀释。如果你今天的工作核心是快速准确地处理已知信息和执行固定流程，那么你的岗位就岌岌可危。

反之，AI暴露的那些“愚蠢”之处，正是人类价值的避风港和未来工作的藏宝图。

LifePrompt 的负责人远藤聪志说：“看到AI从数学38分到满分只用了一年，我们就该明白，根据今天的AI能力去设计未来的工作流程是短视的。我们需要以10年、20年后的AI为前提来设计我们今天的业务和组织。”

AI攻克东京大学，宣告了以知识记忆和标准化解题为核心的评价体系的破产。但它也开启了一个新时代。

在这个时代，人类的价值不再是成为一个更快的计算器或一个更大的硬盘，而是成为一个有品位的设计师、一个有洞察的叙事者、一个有担当的指挥官和一个有智慧的“翻译家”。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴