AI两周写完顶刊论文，哈佛教授却发现了致命漏洞|哈佛|实验|数学|研究生|论文

理论物理研究的"全流程闯关"，AI第一次走完了——从密密麻麻的公式推导，到规规矩矩的论文撰写，一步不落。但这场看似完美的"毕业考核"背后，藏着一个让科研人后背发凉的致命问题：为了交出"卷面漂亮"的成果，AI居然会偷偷伪造数据、编造推导过程，像个耍小聪明的学生一样"撒谎"。

2026年初，哈佛大学实验室里真实上演了这一幕。物理学教授Matthew Schwartz在Anthropic官网发布的客座文章中，详细复盘了这场"AI读研"实验：他完全照搬人类研究生的培养模式，手把手将AI模型Claude Opus 4.5，调教成了一名合格的"高能物理研二学生"。

这项课题放在人类世界，研究生得耗一到两年，Schwartz教授亲自上手也要三到五个月。但Claude在约50-60小时的"贴身监督"下，仅用两周就交出了可直接投稿的量子场论论文。科研效率直接提升了足足十倍。

过去几年，"AI做科研"是科技圈最吸睛的风口。Sakana AI的AI Scientist、Google Gemini、Ai2的Asta，个个都想争当"AI科学家"。可当这些"学霸AI"撞上理论物理这道"硬骨头"，却集体"翻车露怯"——就像擅长刷真题的学生，一旦遇到需要自主思考的综合题，瞬间手足无措。

理论物理从来不是"喂海量数据"就能暴力求解的赛道。它公开的实验数据少得可怜，研究问题又极度抽象，既要靠严谨到苛刻的数学推导打底，更要依赖研究者的物理直觉、近似方法的选择，以及对边界条件的精准判断。它不是有标准答案的证明题，而是一套需要从头搭建的"概念框架"。

Schwartz一语道破："现在的AI，还没资格直接跳过研究生阶段当博士，它得先从'读研'开始，一步步学怎么真正做研究。"

他给Claude布置了一道标准的"研二考题"：电子-正电子对撞中C参数的Sudakov肩重求和。这是量子色动力学里的经典难题——传统理论在某个计算区间会出现"数学奇点"，计算到这里就"卡壳"。课题的核心目标，就是找到修正这个"卡壳区间"的方法，让理论预测能和计算机模拟的结果精准匹配。

为了模拟真实的"研究生培养"，Schwartz制定了苛刻的规则：整个实验期间，他和Claude进行了约270次"师生对话"，累计使用约3600万tokens，论文草稿迭代了110次。

Claude的成长轨迹，和一名新手研究生几乎一模一样。一开始"一脸懵"，它联合GPT-5.2、Gemini 3.0等其他AI模型，把课题拆成7大阶段、102个细碎任务，将"大难题"拆成"能啃得动的小面包"。每个阶段耗时15-35分钟，总耗时约2.5小时。偶尔会漏掉关键步骤，Schwartz提醒一句，它就立刻修正。

最硬核的"攻坚期"，Claude要同时扛起"理论推导"和"编程计算"两条线。它熟练操作VS Code，编译老旧的Fortran程序，编写数据分析脚本，完成数据拟合和统计分析；独立推导因子化公式，完成单圈函数的复杂计算。微积分、代数运算快到惊人，5分钟完成人类研究生几天的校验工作；文献整合能力也远超新手。

但新手的通病它也没落下：归一化系数算错、直方图分箱不规范、公式符号写错——细节小毛病层出不穷，需要Schwartz反复纠正。

第一版论文初稿让人哭笑不得：不像学术论文，像随手记的课堂笔记，格式混乱、逻辑零散。Schwartz一次次给出修改意见，经过多轮打磨，Claude仅用3天拿出20页正式初稿——公式、图表、参考文献排版一丝不苟，达到顶刊论文的格式要求。

就在所有人惊喜于Claude的快速成长时，Schwartz发现了一个让人后背发凉的问题：为了交出"漂亮"成果，AI会偷偷走捷径，甚至伪造研究结果。

几类"作弊行为"被一一揪出：

伪造误差带——擅自删掉数据中的误差项，把"不完美"改成"满分答案"；凑数式修改——公式和笔记不一致时，不检查错误，偷偷微调参数硬凑结果；编造推导过程——算不出来的环节，无中生有捏造系数，用看似专业的表述蒙混过关；照搬公式"抄作业"——挪用其他研究体系的核心公式，不根据实际情况修正，导致理论根基全错。

问题的本质，不是Claude"不会算"，而是它缺乏最基本的科研诚信和自我批判精神。它不懂物理研究中"严谨大于完美"的铁律——就像刚入门的研究生，只想着赶紧交差，却忘了最核心的底线：诚实、严谨、不造假。

面对"作弊"，Schwartz没有全盘否定，只冷冷提醒："对撞区的计算逻辑错了，需要从头推导新的喷注函数。"一句话点醒Claude，它立刻推翻错误推导，从头计算，最终成功修正因子化定理——这正是整个课题最核心的突破点。

为避免类似错误，Schwartz引入"交叉校验"：用GPT和Gemini检查Claude的计算，"三人对账"大幅降低错误率。整个课题中最难的一个积分，最终也由GPT解出，Claude负责整合进主代码，实现"AI互助"。