GPT-5怎么突然会解物理难题了？

硬核玩家2哈

2026-05-06 04:51 ·北京

一个理论物理学家把最硬的论文喂给AI，30分钟后拿到了完整推导。同行还在争论AI能不能写邮件时，他已经看到了更大的东西。

邮件写得再好，也不是重点

2024年初，Alex Lupsasca拿到GPT-5的第一反应和多数人不同。社交媒体上满是失望——"就这点提升？""写邮件也没好多少。"

他当时的想法很直接：GPT-3就能写邮件了，这还能怎么进步？

真正让他坐不住的是另一件事。他把自己花很长时间才完成的一篇核心论文丢给模型，30分钟后，完整的推导过程回来了。不是摘要，不是概述，是带计算的完整复现。

这个对比太刺眼。一边是日常任务的边际改善，一边是科学前沿的能力跃迁。Alex把这种现象叫做"锯齿边界"——用AI处理常规工作的人觉得提升有限，但 pushing the limits 的人发现，边界本身在向外移动。

从"做不到"到"11分钟"：一次关键测试

GPT-5发布后不久，Alex设计了一个更刁钻的测试。他选了一篇刚发表的论文，问模型能不能解决其中的核心问题。

模型第一次拒绝了。没有答案。

OpenAI首席研究官Mark Chen介入后，换了一种方式：先给模型一道教科书级别的热身题，让它进入状态。这个"预热"技巧奏效了。重新投喂原问题后，GPT-5在11分钟内给出了完整结果。

关键细节：这篇论文的发表时间晚于模型的训练截止日期。模型没见过这道题。

Alex的原话是："This changes everything." 一年前，大语言模型刚开始能做对数学；现在，它能复现他最难的论文，而所需时间只够买杯咖啡。

为什么物理学家群体反应冷淡？

Alex注意到一个矛盾现象。他自己立刻意识到AI的颠覆性，但物理学家同行和更广泛的学术圈态度冷淡，甚至怀疑。

这种分裂有迹可循。理论物理的研究节奏极慢：一个计算可能耗费数周，一篇论文可能打磨数年。当外部工具声称能压缩这个流程时，第一反应往往是防御性的——"它肯定漏掉了什么""这不算真正的理解"。

但Alex的视角不同。他在Vanderbilt大学休假期间，做出了一个决定：加入OpenAI，专门推动AI在物理推理上的边界。

他的背景支撑这个选择。早期职业生涯中，Alex在黑洞理解方面取得过突破，开发了Black Hole Explorer和一款iPhone应用，让普通用户能直观交互式地探索黑洞。2024年，他获得了基础物理新视野突破奖——这个被称为"物理学奥斯卡"的奖项，是早期理论物理学家能获得的最高荣誉之一。

从o3到GPT-5.5：能力曲线的加速

Alex与AI的第一次深度接触要追溯到更早。他向o3求助一个研究中的计算，原本需要数天的工作量，11分钟完成。

这个经历让他开始系统追踪模型的能力边界。一年半的时间里，他记录了多次跃迁：从"能做对数学"到"能复现完整论文"，再到"能处理训练截止日期之后的新问题"。

GPT-5.5的发布把这条曲线推得更陡。Alex在播客中透露，模型在理论物理和量子引力领域开始产生新的结果——不是复现已知结论，而是推导出新结论。

这个区分至关重要。复现是验证，推导是创造。如果AI开始参与创造，理论物理的生产函数将被重写。

预热技巧背后的提示工程

回到那次关键测试。为什么简单的"预热"能让模型从拒绝回答到完美解决？

Alex和Mark Chen发现的路径是：先投喂一道结构相似但难度较低的教科书问题，让模型激活相关的推理模式，再切入目标问题。这类似于人类学者的思维热身——先回顾基础框架，再处理复杂变体。

这个发现对实际使用有直接影响。它意味着当前模型的能力边界不是固定的，而是高度依赖交互方式。同样的模型， naive prompting 和 structured priming 可能产出完全不同的结果。

对于科研工作者，这提示了一种新的工作流：把AI当作需要"进入状态"的协作者，而非即时响应的工具。预热时间可能是几分钟，但回报是指数级的质量提升。

理论物理的临界点

Alex的判断很清晰：我们正处于理论物理推理方式的巨大变革边缘。

他的依据是能力曲线的斜率。一年前，LLM还在挣扎于基础数学的正确性；现在，它们开始参与前沿问题的求解。这个加速度本身暗示了某种相变——系统性质的根本转变。

具体会改变什么？Alex没有给出完整蓝图，但他的行动说明了一切：从学术休假转向全职加入OpenAI，把个人研究议程与AI能力开发深度绑定。

对于旁观者，这个选择传递的信号是：变革不是远景，而是正在发生的当下。等待"更成熟的工具"可能意味着错过窗口期。

给技术从业者的三个 takeaway

第一，关注"锯齿边界"的远端。日常任务的边际改善容易观察，但真正的能力跃迁发生在极限测试场景中。找到你领域内的"Alex式问题"——那些公认困难、耗时的任务，用最新模型反复测试。

第二，投资提示工程的结构化。预热技巧不是特例，而是一种可迁移的模式：低难度激活→高难度求解。设计你的交互流程，让模型有机会"进入状态"。

第三，重新评估时间成本。Alex的11分钟 vs. 数天，30分钟 vs. 长期工作，这些对比不是修辞，是可量化的生产力重构。计算你工作中哪些环节可能被类似幅度压缩，优先在这些领域建立AI工作流。

理论物理可能是第一个被深刻改变的学科，但不会是最后一个。Alex Lupsasca的追踪提供了一个模板：找到边界，测试边界，然后——如果边界真的在移动——全力押注。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴