一个理论物理学家把最硬的论文喂给AI,30分钟后拿到了完整推导。同行还在争论AI能不能写邮件时,他已经看到了更大的东西。

邮件写得再好,也不是重点

打开网易新闻 查看精彩图片

2024年初,Alex Lupsasca拿到GPT-5的第一反应和多数人不同。社交媒体上满是失望——"就这点提升?""写邮件也没好多少。"

他当时的想法很直接:GPT-3就能写邮件了,这还能怎么进步?

真正让他坐不住的是另一件事。他把自己花很长时间才完成的一篇核心论文丢给模型,30分钟后,完整的推导过程回来了。不是摘要,不是概述,是带计算的完整复现。

这个对比太刺眼。一边是日常任务的边际改善,一边是科学前沿的能力跃迁。Alex把这种现象叫做"锯齿边界"——用AI处理常规工作的人觉得提升有限,但 pushing the limits 的人发现,边界本身在向外移动。

从"做不到"到"11分钟":一次关键测试

GPT-5发布后不久,Alex设计了一个更刁钻的测试。他选了一篇刚发表的论文,问模型能不能解决其中的核心问题。

模型第一次拒绝了。没有答案。

OpenAI首席研究官Mark Chen介入后,换了一种方式:先给模型一道教科书级别的热身题,让它进入状态。这个"预热"技巧奏效了。重新投喂原问题后,GPT-5在11分钟内给出了完整结果。

关键细节:这篇论文的发表时间晚于模型的训练截止日期。模型没见过这道题。

Alex的原话是:"This changes everything." 一年前,大语言模型刚开始能做对数学;现在,它能复现他最难的论文,而所需时间只够买杯咖啡。

为什么物理学家群体反应冷淡?

Alex注意到一个矛盾现象。他自己立刻意识到AI的颠覆性,但物理学家同行和更广泛的学术圈态度冷淡,甚至怀疑。

这种分裂有迹可循。理论物理的研究节奏极慢:一个计算可能耗费数周,一篇论文可能打磨数年。当外部工具声称能压缩这个流程时,第一反应往往是防御性的——"它肯定漏掉了什么""这不算真正的理解"。

但Alex的视角不同。他在Vanderbilt大学休假期间,做出了一个决定:加入OpenAI,专门推动AI在物理推理上的边界。

他的背景支撑这个选择。早期职业生涯中,Alex在黑洞理解方面取得过突破,开发了Black Hole Explorer和一款iPhone应用,让普通用户能直观交互式地探索黑洞。2024年,他获得了基础物理新视野突破奖——这个被称为"物理学奥斯卡"的奖项,是早期理论物理学家能获得的最高荣誉之一。

从o3到GPT-5.5:能力曲线的加速

Alex与AI的第一次深度接触要追溯到更早。他向o3求助一个研究中的计算,原本需要数天的工作量,11分钟完成。

这个经历让他开始系统追踪模型的能力边界。一年半的时间里,他记录了多次跃迁:从"能做对数学"到"能复现完整论文",再到"能处理训练截止日期之后的新问题"。

GPT-5.5的发布把这条曲线推得更陡。Alex在播客中透露,模型在理论物理和量子引力领域开始产生新的结果——不是复现已知结论,而是推导出新结论。

这个区分至关重要。复现是验证,推导是创造。如果AI开始参与创造,理论物理的生产函数将被重写。

预热技巧背后的提示工程

回到那次关键测试。为什么简单的"预热"能让模型从拒绝回答到完美解决?

Alex和Mark Chen发现的路径是:先投喂一道结构相似但难度较低的教科书问题,让模型激活相关的推理模式,再切入目标问题。这类似于人类学者的思维热身——先回顾基础框架,再处理复杂变体。

这个发现对实际使用有直接影响。它意味着当前模型的能力边界不是固定的,而是高度依赖交互方式。同样的模型, naive prompting 和 structured priming 可能产出完全不同的结果。

对于科研工作者,这提示了一种新的工作流:把AI当作需要"进入状态"的协作者,而非即时响应的工具。预热时间可能是几分钟,但回报是指数级的质量提升。

理论物理的临界点

Alex的判断很清晰:我们正处于理论物理推理方式的巨大变革边缘。

他的依据是能力曲线的斜率。一年前,LLM还在挣扎于基础数学的正确性;现在,它们开始参与前沿问题的求解。这个加速度本身暗示了某种相变——系统性质的根本转变。

具体会改变什么?Alex没有给出完整蓝图,但他的行动说明了一切:从学术休假转向全职加入OpenAI,把个人研究议程与AI能力开发深度绑定。

对于旁观者,这个选择传递的信号是:变革不是远景,而是正在发生的当下。等待"更成熟的工具"可能意味着错过窗口期。

给技术从业者的三个 takeaway

第一,关注"锯齿边界"的远端。日常任务的边际改善容易观察,但真正的能力跃迁发生在极限测试场景中。找到你领域内的"Alex式问题"——那些公认困难、耗时的任务,用最新模型反复测试。

第二,投资提示工程的结构化。预热技巧不是特例,而是一种可迁移的模式:低难度激活→高难度求解。设计你的交互流程,让模型有机会"进入状态"。

第三,重新评估时间成本。Alex的11分钟 vs. 数天,30分钟 vs. 长期工作,这些对比不是修辞,是可量化的生产力重构。计算你工作中哪些环节可能被类似幅度压缩,优先在这些领域建立AI工作流

理论物理可能是第一个被深刻改变的学科,但不会是最后一个。Alex Lupsasca的追踪提供了一个模板:找到边界,测试边界,然后——如果边界真的在移动——全力押注。