GPT-5.4 Pro两小时解出百年数学难题，这算"发现"还是"检索"？

野生运营

2026-04-15 18:25 ·北京

陶哲轩盯着屏幕看了很久。这位菲尔兹奖得主在论坛上敲下一行字：模型揭示的整数结构与马尔可夫过程之间的关联，"远超解决这个具体问题的意义"。

让顶级数学家如此动容的，是OpenAI的GPT-5.4 Pro。它用约80分钟解出了埃尔德什开放问题第1196号——一个悬置多年的数论难题，又花30分钟把证明写成LaTeX论文。形式验证正在进行中。

正方：这就是"新发现"

支持者的证据很具体。即将加入OpenAI科学团队的Kevin Barreto指出，模型使用的马尔可夫链技巧是人类数学家"多年工作都忽略的创造性步骤"。

陶哲轩的观察更深层：解法建立了"此前未被描述的关联"。这不是在已知答案里做匹配，而是从已知数据中提炼出人类未曾看见的结构。

这场讨论触及AI研究的核心焦虑：大语言模型能否超越训练数据，产生真正的新知识？这个案例似乎给出了肯定答案——新知识可以"隐藏"在旧数据里，等待被足够强的模式识别能力解锁。

反方：只是"高级检索"

怀疑者的质疑同样尖锐。80分钟解题、30分钟写论文的速度，是否暗示模型曾在训练数据中见过类似结构？埃尔德什问题虽开放，但数论领域的工具库相对有限。

更深层的反驳是方法论层面的：即使输出是"新"的，过程是否算"发现"？人类数学家的创造性往往伴随试错、直觉跳跃和概念重构，而LLM的推理仍是概率性的token生成。

形式验证的结果至关重要——它区分了"看起来对的证明"和"确实对的证明"。历史上不乏看似优雅实则错误的数学论证。

我的判断：边界正在模糊

这件事的真正价值不在于"AI是否比人聪明"，而在于它迫使我们重新定义"发现"本身。

传统认知中，发现需要意图、直觉和系统性探索。但GPT-5.4 Pro展示了一种新型认知劳动：以超人类尺度关联 distant concepts（远距离概念），在数据密度的缝隙中定位人类视线盲区。

陶哲轩说的"远超具体问题"，点出了关键——工具的价值不在于替代人类提问，而在于扩展人类可问的问题范围。当AI能自动建立整数结构与随机过程之间的桥梁，数学家的工作重心必然向问题定义和意义阐释迁移。

更值得观察的是组织层面：OpenAI将"AI for Science"设为专门团队，Barreto的加盟只是最新动作。这意味着数学突破不是副产品，而是产品路线图上的明确站点。

形式验证完成后，这个证明将被拆解、审视、教学。无论最终结论如何，它已经成为一个测试案例——关于人机认知分工的边界，关于"理解"是否需要被重新定义。

如果机器能在两小时内完成人类数年未竟的工作，我们是否应该重新设计数学教育的核心目标？当发现的速度超越验证的速度，学术共同体的质量控制机制又该如何进化？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴