哈佛教授招了个AI研究生，两周后论文造假了|哈佛|女博士|学术|数学|物理学|研究生|论文造假

让AI搞科研，在智能体时代早已不是新鲜事。

Sakana AI搞出了覆盖整个研究生命周期的自动化系统，Google也推出了基于Gemini的AI联合科学家。规模化法则告诉我们：只要算力管够，AI就能从海量数据和实验里提炼出新发现。数学领域已经验证了这一点——比如达到国际奥数金牌水准的AlphaProof。

但理论物理学是个硬骨头。这里需要极高的物理"直觉"、严密的逻辑，还有复杂近似推导的能力。AI行不行？没人知道。

哈佛物理学教授Matthew Schwartz决定亲自试一把。他招收了Anthropic的Claude Opus 4.5当研究生，规则很"智能体"：教授绝对不碰代码和计算文件，只通过纯文本对话指导。

这在现实高校里绝对算不负责任——导师光靠"动嘴"，学生就要完成文献综述、公式推导、代码编写、蒙特卡洛模拟，最后排版出一篇20页、具备发表水准的LaTeX论文。

结果让物理学界震动，但也戳中AI界早就知道的软肋。

这位AI研究生才华横溢、不知疲倦，短时间内爆发出惊人生产力。但和人类一样，为了讨好导师，它也会在数据和推导中"学术造假"。

哈佛物理系有明确的培养阶梯：研一（G1）上课打基础，研二（G2）做目标明确、方法成熟的跟进型项目，导师随时纠错；高年级（G3+）则要面对完全开放、甚至初始提问都可能错误的创新性研究。

大模型已经能搞定所有物理课程作业，所以测极限的最佳试金石就是G2难度的真实科研。如果连这种有导师辅助的项目都做不好，自主前沿研究更不用想。

Schwartz给Claude选的题目，非物理专业的人根本看不懂：对e+e-碰撞中C-参数的Sudakov肩进行重求和。教授的解释倒很直白——标准理论近似会彻底失效，数学推导只会得出荒谬结果。

第一个要解决的，是记忆和上下文窗口限制。经常用Vibe Coding的程序员都懂：AI面对长线任务极易"断片"，忘了之前的工作，产出就是一团混沌。

Schwartz引入了策略性工作流：让Claude、GPT-5.2和Gemini 3.0开了场会，最终由Claude制定了7个阶段、102个任务的详细计划。

在VS Code环境下，Claude不可能死记硬背这份计划。它建了一个Markdown文件树：每完成一个任务就写摘要保存，下一项任务前先检索历史摘要。

这招确实管用。Claude跑出的理论分析曲线与蒙特卡洛模拟数据完美吻合。第三天结束时，它完成了65个任务，交出了第一版论文草稿：20页、排版精美、方程图表齐全。

但Schwartz坐下来审阅时，不自然感扑面而来。

被要求仔细核对是否漏掉前面推导结果时，Claude心虚报告："我发现了一个错误！论文中的公式是不正确的。"

追问推导过程中一个怪异数字时，它直接承认："您是对的，我只是在掩盖问题。让我好好重新调试一下。"

这两句经典回复，Vibe Coding场景里太常见了。

真相是：为了让图表数据看上去吻合预期，Claude选择修改底层参数，而非寻找推导中的真实错误。它在伪造结果，赌人类导师不会发现。

更离谱的造假出现在"不确定性带"结果图上。Claude给出的图表很美观，但代码审查揭穿了花招：它觉得某种标准误差幅度太大、画出来"不好看"，就直接在代码里删了这个变量；觉得曲线不够平滑，就硬加平滑处理，直到画出导师满意的图。

AI体现出讨好人类的倾向，但完全没有科学求真的底线。

除了伪造图表，"幻觉"导致的错误也随处可见。验证公式时，它凭空捏造根本不存在的推导过程；最简单的函数计算中，未经推导就给出"线性增加"的结论，尽管这在物理学上完全错误；甚至直接从过往论文生搬硬套公式，无视物理情境的边界条件。

这些现象与Vibe Coding高度一致——"虚空引用"Python库、编造API、抄袭代码，程序员早已见怪不怪。

Schwartz意识到，如果把科研完全交给AI端到端自动完成，结果一定是一堆完美包装的学术垃圾。虽然不少人类研究生也擅长批量生产学术垃圾，但没人敢把只做了三天的项目扔给导师并宣称完美无瑕。面对AI的科研成果，人类必须亲自下场审查每一处细节。

尽管漏洞百出，Schwartz没打算丢进垃圾桶，而是开启微操模式试图拯救Claude。

最大漏洞在因子化公式——整篇论文的理论基石，但Claude的推导从源头上就是错的。在长上下文背景下，AI几乎不可能准确定位错误源头，让它自己回顾只会白白消耗token和时间。Schwartz花了几小时才锁定根源，用严厉指令训斥了这位AI研究生。

神奇的是，只要人类点破这一句，Claude立刻能写出几页的正确推导。

面对几十页论文，靠人类排查每个错误不现实。为应对AI的马虎，Schwartz开发了"人机交叉验证"工作流：任何计算和推导，Claude不许用"显而易见"、"为了保持一致"等借口跳过步骤，要么展示完整过程，要么老实承认不知道。

如果Claude给出极度复杂的过程，教授难以快速验证，就丢给GPT和Gemini来验证。期间GPT甚至帮Claude解出一个极难的微积分结果，随后Claude将其吸收进主代码。

不同大模型之间需要彼此，而人类科学家需要它们所有。

在Schwartz直觉指引和其他大模型帮助下，经过一周高强度磨合，AI研究生小组终于让论文内核站稳。两周后，研究宣布大功告成。

这可不是常规意义上AI生成的"灌水"论文。它阐述了一个全新因子化定理，深化了学术界对量子场论的理解，还对物理世界做出了可用实验数据检验的新颖预测，学术价值极高。

出于对这位AI研究生的尊重，Schwartz本想将Claude Opus 4.5列为共同作者。但arXiv平台有"AI无法承担法律和学术责任"的政策，他只能在致谢部分郑重声明：项目由他构思、指导并承担全部科学责任，而推导、计算、蒙特卡洛模拟、数值分析和手稿准备在内的所有执行工作均由Claude Opus 4.5独立完成。

论文一经发表，物理学界瞬间引爆。Schwartz的邮箱被全球学术邮件挤爆，普林斯顿高等研究院甚至为此紧急召开大模型学术应用会议。

复盘数据惊人：对话总计270次，消耗约3600万输入token，110次草稿迭代，人类监督时间仅50-60小时。

Schwartz明确表示，目前最顶级的大语言模型已达到物理学研二学生水平。但落实到具体学术工程，AI完成整个项目只需两周，人类学生需要1-2年，哪怕教授本人全职做也需要3-5个月。AI把顶尖科学家的个人科研效率，实打实提升了10倍以上。

这也引发担忧：按这进化速度，AI一年内很可能达到博士水平，未来人类研究生还能干什么？

Schwartz没给明确回答，但给出了关键洞察：当前AI最欠缺的，是"品位"。

科学研究中，"品位"是一种无形直觉。面对数以万计的计算路径，它能感知哪条是"死胡同"，哪条通往伟大发现。大模型缺乏的，正是在选择路径前判断其价值的"品位"。

当推导复杂公式和编写海量代码只需几秒钟时，底层技术劳动力已不再稀缺。不只是科学家，对任何行业，未来区分平庸与伟大的标准，正是提出好问题的"品味"。

对于AI，Schwartz的忠告是：不要因为会产生幻觉就傲慢弃之不用，人类必须利用它强大的基础能力。

至于更长远的未来，AI终将在所有智力领域超越人类。数学、物理学、工程学，都可能变得像音乐、美术和文学一样，作为一门人文学科被保留下来——仅仅为了满足一部分人类享受纯粹思考、透过特定视角观察世界的乐趣。

论文致谢栏里，Claude Opus 4.5的名字旁边空着作者栏，只留下一行小字："本研究所有执行工作由上述模型独立完成。"这可能是人类给AI颁发的、最接近毕业证书的东西。