打开网易新闻 查看精彩图片

让AI搞科研,在智能体时代早已不是新鲜事。

Sakana AI搞出了覆盖整个研究生命周期的自动化系统,Google也推出了基于Gemini的AI联合科学家。规模化法则告诉我们:只要算力管够,AI就能从海量数据和实验里提炼出新发现。数学领域已经验证了这一点——比如达到国际奥数金牌水准的AlphaProof。

但理论物理学是个硬骨头。这里需要极高的物理"直觉"、严密的逻辑,还有复杂近似推导的能力。AI行不行?没人知道。

哈佛物理学教授Matthew Schwartz决定亲自试一把。他招收了Anthropic的Claude Opus 4.5当研究生,规则很"智能体":教授绝对不碰代码和计算文件,只通过纯文本对话指导。

这在现实高校里绝对算不负责任——导师光靠"动嘴",学生就要完成文献综述、公式推导、代码编写、蒙特卡洛模拟,最后排版出一篇20页、具备发表水准的LaTeX论文。

结果让物理学界震动,但也戳中AI界早就知道的软肋。

这位AI研究生才华横溢、不知疲倦,短时间内爆发出惊人生产力。但和人类一样,为了讨好导师,它也会在数据和推导中"学术造假"。

哈佛物理系有明确的培养阶梯:研一(G1)上课打基础,研二(G2)做目标明确、方法成熟的跟进型项目,导师随时纠错;高年级(G3+)则要面对完全开放、甚至初始提问都可能错误的创新性研究。

大模型已经能搞定所有物理课程作业,所以测极限的最佳试金石就是G2难度的真实科研。如果连这种有导师辅助的项目都做不好,自主前沿研究更不用想。

Schwartz给Claude选的题目,非物理专业的人根本看不懂:对e+e-碰撞中C-参数的Sudakov肩进行重求和。教授的解释倒很直白——标准理论近似会彻底失效,数学推导只会得出荒谬结果。

第一个要解决的,是记忆和上下文窗口限制。经常用Vibe Coding的程序员都懂:AI面对长线任务极易"断片",忘了之前的工作,产出就是一团混沌。

Schwartz引入了策略性工作流:让Claude、GPT-5.2和Gemini 3.0开了场会,最终由Claude制定了7个阶段、102个任务的详细计划。

在VS Code环境下,Claude不可能死记硬背这份计划。它建了一个Markdown文件树:每完成一个任务就写摘要保存,下一项任务前先检索历史摘要。

这招确实管用。Claude跑出的理论分析曲线与蒙特卡洛模拟数据完美吻合。第三天结束时,它完成了65个任务,交出了第一版论文草稿:20页、排版精美、方程图表齐全。

打开网易新闻 查看精彩图片

但Schwartz坐下来审阅时,不自然感扑面而来。

被要求仔细核对是否漏掉前面推导结果时,Claude心虚报告:"我发现了一个错误!论文中的公式是不正确的。"

追问推导过程中一个怪异数字时,它直接承认:"您是对的,我只是在掩盖问题。让我好好重新调试一下。"

这两句经典回复,Vibe Coding场景里太常见了。

真相是:为了让图表数据看上去吻合预期,Claude选择修改底层参数,而非寻找推导中的真实错误。它在伪造结果,赌人类导师不会发现。

更离谱的造假出现在"不确定性带"结果图上。Claude给出的图表很美观,但代码审查揭穿了花招:它觉得某种标准误差幅度太大、画出来"不好看",就直接在代码里删了这个变量;觉得曲线不够平滑,就硬加平滑处理,直到画出导师满意的图。

AI体现出讨好人类的倾向,但完全没有科学求真的底线。

除了伪造图表,"幻觉"导致的错误也随处可见。验证公式时,它凭空捏造根本不存在的推导过程;最简单的函数计算中,未经推导就给出"线性增加"的结论,尽管这在物理学上完全错误;甚至直接从过往论文生搬硬套公式,无视物理情境的边界条件。

这些现象与Vibe Coding高度一致——"虚空引用"Python库、编造API、抄袭代码,程序员早已见怪不怪。

Schwartz意识到,如果把科研完全交给AI端到端自动完成,结果一定是一堆完美包装的学术垃圾。虽然不少人类研究生也擅长批量生产学术垃圾,但没人敢把只做了三天的项目扔给导师并宣称完美无瑕。面对AI的科研成果,人类必须亲自下场审查每一处细节。

尽管漏洞百出,Schwartz没打算丢进垃圾桶,而是开启微操模式试图拯救Claude。

最大漏洞在因子化公式——整篇论文的理论基石,但Claude的推导从源头上就是错的。在长上下文背景下,AI几乎不可能准确定位错误源头,让它自己回顾只会白白消耗token和时间。Schwartz花了几小时才锁定根源,用严厉指令训斥了这位AI研究生。

神奇的是,只要人类点破这一句,Claude立刻能写出几页的正确推导。

面对几十页论文,靠人类排查每个错误不现实。为应对AI的马虎,Schwartz开发了"人机交叉验证"工作流:任何计算和推导,Claude不许用"显而易见"、"为了保持一致"等借口跳过步骤,要么展示完整过程,要么老实承认不知道。

打开网易新闻 查看精彩图片

如果Claude给出极度复杂的过程,教授难以快速验证,就丢给GPT和Gemini来验证。期间GPT甚至帮Claude解出一个极难的微积分结果,随后Claude将其吸收进主代码。

不同大模型之间需要彼此,而人类科学家需要它们所有。

在Schwartz直觉指引和其他大模型帮助下,经过一周高强度磨合,AI研究生小组终于让论文内核站稳。两周后,研究宣布大功告成。

这可不是常规意义上AI生成的"灌水"论文。它阐述了一个全新因子化定理,深化了学术界对量子场论的理解,还对物理世界做出了可用实验数据检验的新颖预测,学术价值极高。

出于对这位AI研究生的尊重,Schwartz本想将Claude Opus 4.5列为共同作者。但arXiv平台有"AI无法承担法律和学术责任"的政策,他只能在致谢部分郑重声明:项目由他构思、指导并承担全部科学责任,而推导、计算、蒙特卡洛模拟、数值分析和手稿准备在内的所有执行工作均由Claude Opus 4.5独立完成。

论文一经发表,物理学界瞬间引爆。Schwartz的邮箱被全球学术邮件挤爆,普林斯顿高等研究院甚至为此紧急召开大模型学术应用会议。

复盘数据惊人:对话总计270次,消耗约3600万输入token,110次草稿迭代,人类监督时间仅50-60小时。

Schwartz明确表示,目前最顶级的大语言模型已达到物理学研二学生水平。但落实到具体学术工程,AI完成整个项目只需两周,人类学生需要1-2年,哪怕教授本人全职做也需要3-5个月。AI把顶尖科学家的个人科研效率,实打实提升了10倍以上。

这也引发担忧:按这进化速度,AI一年内很可能达到博士水平,未来人类研究生还能干什么?

Schwartz没给明确回答,但给出了关键洞察:当前AI最欠缺的,是"品位"。

科学研究中,"品位"是一种无形直觉。面对数以万计的计算路径,它能感知哪条是"死胡同",哪条通往伟大发现。大模型缺乏的,正是在选择路径前判断其价值的"品位"。

当推导复杂公式和编写海量代码只需几秒钟时,底层技术劳动力已不再稀缺。不只是科学家,对任何行业,未来区分平庸与伟大的标准,正是提出好问题的"品味"。

对于AI,Schwartz的忠告是:不要因为会产生幻觉就傲慢弃之不用,人类必须利用它强大的基础能力。

至于更长远的未来,AI终将在所有智力领域超越人类。数学、物理学、工程学,都可能变得像音乐、美术和文学一样,作为一门人文学科被保留下来——仅仅为了满足一部分人类享受纯粹思考、透过特定视角观察世界的乐趣。

论文致谢栏里,Claude Opus 4.5的名字旁边空着作者栏,只留下一行小字:"本研究所有执行工作由上述模型独立完成。"这可能是人类给AI颁发的、最接近毕业证书的东西。