陶哲轩盯着屏幕看了很久。这位菲尔兹奖得主在论坛上敲下一行字:模型揭示的整数结构与马尔可夫过程之间的关联,"远超解决这个具体问题的意义"。

让顶级数学家如此动容的,是OpenAI的GPT-5.4 Pro。它用约80分钟解出了埃尔德什开放问题第1196号——一个悬置多年的数论难题,又花30分钟把证明写成LaTeX论文。形式验证正在进行中。

打开网易新闻 查看精彩图片

正方:这就是"新发现"

支持者的证据很具体。即将加入OpenAI科学团队的Kevin Barreto指出,模型使用的马尔可夫链技巧是人类数学家"多年工作都忽略的创造性步骤"。

陶哲轩的观察更深层:解法建立了"此前未被描述的关联"。这不是在已知答案里做匹配,而是从已知数据中提炼出人类未曾看见的结构。

这场讨论触及AI研究的核心焦虑:大语言模型能否超越训练数据,产生真正的新知识?这个案例似乎给出了肯定答案——新知识可以"隐藏"在旧数据里,等待被足够强的模式识别能力解锁。

反方:只是"高级检索"

怀疑者的质疑同样尖锐。80分钟解题、30分钟写论文的速度,是否暗示模型曾在训练数据中见过类似结构?埃尔德什问题虽开放,但数论领域的工具库相对有限。

更深层的反驳是方法论层面的:即使输出是"新"的,过程是否算"发现"?人类数学家的创造性往往伴随试错、直觉跳跃和概念重构,而LLM的推理仍是概率性的token生成。

形式验证的结果至关重要——它区分了"看起来对的证明"和"确实对的证明"。历史上不乏看似优雅实则错误的数学论证。

我的判断:边界正在模糊

这件事的真正价值不在于"AI是否比人聪明",而在于它迫使我们重新定义"发现"本身。

传统认知中,发现需要意图、直觉和系统性探索。但GPT-5.4 Pro展示了一种新型认知劳动:以超人类尺度关联 distant concepts(远距离概念),在数据密度的缝隙中定位人类视线盲区。

陶哲轩说的"远超具体问题",点出了关键——工具的价值不在于替代人类提问,而在于扩展人类可问的问题范围。当AI能自动建立整数结构与随机过程之间的桥梁,数学家的工作重心必然向问题定义和意义阐释迁移。

更值得观察的是组织层面:OpenAI将"AI for Science"设为专门团队,Barreto的加盟只是最新动作。这意味着数学突破不是副产品,而是产品路线图上的明确站点。

形式验证完成后,这个证明将被拆解、审视、教学。无论最终结论如何,它已经成为一个测试案例——关于人机认知分工的边界,关于"理解"是否需要被重新定义。

如果机器能在两小时内完成人类数年未竟的工作,我们是否应该重新设计数学教育的核心目标?当发现的速度超越验证的速度,学术共同体的质量控制机制又该如何进化?