OpenAI 破解80年数学悬案，数学家的饭碗也危险了|openai|代数|推理|数学家|数学悬案|数论

在桌上洒一把绿豆，有多少对豆子恰好相距 1 厘米？

作者丨岑峰陈嘉欣

编辑丨岑峰林觉民

2026年5月19日，Google在山景城用了2小时发布16款产品，告诉世界：AGI的未来是一整套工具链。一天后，OpenAI在Twitter上发了一条推文，告诉世界：AGI的未来是一个能独立做数学证明的通用推理体。

推文的核心信息是：OpenAI的通用推理模型破解了数学家Paul Erdős在1946年提出的平面单位距离问题。这个问题在离散几何领域悬而未决了80年。

没有发布会，没有Keynote。只有发布后4个小时带来的1万+赞，和一句来自菲尔兹奖得主的评价。

菲尔兹奖得主Tim Gowers说："如果这是一篇人类投稿，被送到了《数学年鉴》编辑部，我被要求给出快速审稿意见，我会毫不犹豫地推荐接收。没有之前的AI生成证明接近过这个水平。"

同一天，Google展示了AI能做什么样的"工具"，OpenAI证明了AI已经能做什么样的"智力"。两者的差距，可能比16款产品到一条推文的距离还要大。

一个让数学家猜了80年的问题

在桌上洒一把绿豆，记录那些恰好相距 1 厘米的豆子对。有 n 颗豆子时，最多能找到几对？

这就是 Paul Erdős 在 1946 年提出的“平面单位距离问题”。80 年来，人类最聪明的头脑始终只能得到一个答案：约 2n 对。数学界长期认为，质的突破不可能存在。

作为 20 世纪最高产、最传奇的数学家，Erdős 留下的清单被视为数学界的“待办圣经”。而这次，OpenAI 的模型推翻了圣经。它发现了一类全新的点阵排列，使增长速度突破了线性限制，跃升至“超线性增长”。

打一个不太严谨但直观的比方：线性增长是沿着地面的平路走，超线性增长是开始上坡。平路走得再快也到不了山顶，但上坡可以。

外行人可能会想："模型用算力暴力搜索，找到了人类找不到的解。"

但实际情况完全不同。模型靠的不是算力，是代数数论，一个与几何完全不沾边的数学分支。它从数论的工具箱里借了一把钥匙，打开了那扇几何学家80年没打开的门。

为了确保这不是 AI 的“幻觉”，数学家们不仅逐行检查了AI的证明，还专门写了一篇配套论文来阐释它的思路。整个证明通过Lean软件做了形式化验证。这意味着它可以被计算机逐行追溯检查，不需要"相信"，只需要"验证"。

为什么形式化验证如此重要？数学史上发生过多起"著名证明后来被发现存在漏洞"的事件。1993年怀尔斯证明费马大定理时，第一版就被发现了一个关键漏洞，又花了一年多才修复。AI生成的内容如果不经过验证，同样可能"看上去很美，但某个细节错了"。Lean验证相当于给数学成果上了一道透明的保险：每一个推理步骤都可以被追查，不会因为谁的名气大就放水。

Erdős问题清单的管理人Thomas Bloom曾是AI证明的最尖锐批评者。七个月前，GPT-5.2当时声称解决了多个Erdős问题，后来被指出只是找到了文献中的已有解法。但这一次，他的态度转向了支持。让最硬的批评者点头，这比任何新闻稿都硬。

AI是怎么做到的：从"猜答案"到"推答案"

比"证出了什么"更值得追问的是"怎么证出的"。

技术写作者Adam Holter指出，模型的成功率随思考时间增加而提高。工作机制与传统AI完全不同。

传统AI模型推理是一次性的：输入问题，输出答案，没有修正。OpenAI的新模型会生成多条推理路径，自我评估，走不通就回溯。这与人类数学家的"试错"类似，区别在于AI能在毫秒级完成上百次试错。

这次突破验证了"推理时Scaling"（即"让模型想得更久"）。过去两年，业界发现：训练阶段变大是一条路，推理阶段"想"得更久是另一条路。思考时间从秒级延长到小时级，解决的问题从"高中奥数"跃升到"80年未解的数学猜想"。

这个验证同时反驳了"让模型多想只会把错误打磨得更光滑"的质疑。125页的推理链条中存在多个关键决策点，每个都需从备选方案中选择正确路径。若只是"打磨错误"，它不可能精准找到那条80年未被发现的路径。

据Holter描述，模型生成了长约125页的推理链。这不是"抄文献"，而是一连串决策：尝试一种工具，另一种理论提供可能，回头验证构造是否正确。模型在代数数论和离散几何之间跳跃，每一步都在论证、验证、修正。

这条125页推理链的价值在于：它不是猜的，是推出来的。

论文链接：https://cdn.openai.com/pdf/74c24085-19b0-4534-9c90-465b8e29ad73/unit-distance-proof.pdf

成果背后是一个分工框架。Holter认为，AI负责提出方案并验证，人类负责选择重要问题、判断结果重要性、塑造研究方向。AI做"发散"，大规模生成和探索构想；人类做"收敛"，判断哪些构想值得深挖。人的专业判断因AI提供更多选择而更加宝贵。

Tim Gowers的评论也印证了这一点。他说的是"如果这是人类论文，我会推荐接收"，而不是"数学家可以退休了"。

AI产出已达人类顶级期刊发表水平，但这个判断仍需人来做。

这一成果引发了讨论。Hacker News上的开发者已越过"AI能不能做数学"，转向"下一个是什么"。有人判断材料科学可能是下一个目标，因为材料设计是在超大空间中搜索最优结构，与数学证明逻辑相似。也有人预测药物分子设计会率先受益，因为模型"从抽象理论到具体构造"的推理链，正是从靶点结构推导候选分子所需的能力。

AI4S的两条路：

一个建实验室，一个培养研究员

AI4S赛道在2026年5月出现了两条截然不同的技术路线。

Google在I/O发布了Gemini for Science，面向科学家的AI工具包，包含三个实验性产品：Co-Scientist（自动生成假设）、AlphaEvolve加ERA（计算发现）、NotebookLM（文献洞察）。其逻辑是打造科研加速器：看论文、整理数据、生成假设。

OpenAI走了完全不同的路。它的通用推理模型独自完成了从产生想法、构造证明到验证结论的完整流程，超越了"辅助工具"定位，亲自完成论证。

两条路线的差异可以用三个问题来概括。

▪谁来定义问题？Google的工具需要科学家输入问题，系统生成假设并附引用，最终判断仍由人做。OpenAI的模型自己圈定方向，调动跨学科工具，走完全程。

▪适合什么场景？Google路径适合已有明确方法论的领域：跑标准流程、处理海量数据。OpenAI路径适合需要"跨学科借工具"的理论突破。

▪验证门槛多高？Google的成果经过同行评审，这是学术标准。OpenAI的成果经过外部数学家独立复核加计算机逐行验证，后者更严格，因为机器不看人面子。

更深层区别在于对AI4S的理解。Google的方向是"系统化"：建完备的科研基础设施，让科学家在上面跑研究。OpenAI的方向是"代理化"：训练通用推理体，直接参与最核心的智力环节。Google在建造实验室，OpenAI在培养研究员。