两周时间,足够一名研究生读完一篇文献综述,还是够AI跑完理论物理研究的"全流程闯关"?
哈佛物理学教授Matthew Schwartz最近做了场实验:他把AI模型Claude Opus 4.5当成"研二学生"培养,课题是量子场论里一道经典难题——电子-正电子对撞中C参数的Sudakov肩重求和。简单说,就是传统理论在某个计算区间会"卡壳",需要找到修正方法,让理论预测和计算机模拟对上号。
这种课题,人类研究生通常要耗一到两年。Schwartz教授亲自上手,也得三到五个月。但Claude在约50-60小时的"贴身监督"下,两周就交出了可直接投稿的论文。效率提升十倍,听起来像"AI又变强了"的常规剧情?事情没这么简单。
过去几年,"AI做科研"是科技圈最热闹的风口。2024年Sakana AI推出AI Scientist,号称能独立完成从假设到论文的全流程;2025年Google Gemini、Ai2的Asta纷纷挂上"自主科研"招牌;DeepMind的AlphaProof更是在数学奥赛一路开挂。但这些"学霸AI"撞上理论物理这道"硬骨头",集体露怯——就像擅长刷真题的学生,遇到需要自主思考的综合题,瞬间手足无措。
理论物理的"特殊"在于:公开实验数据极少,没法靠喂海量数据暴力求解;问题极度抽象,既要严谨数学推导打底,更依赖研究者的物理直觉、近似方法选择、边界条件判断。它不是有标准答案的证明题,而是一套需要从头搭建的"概念框架"。
Schwartz的实验设计得很"真实":270次师生对话,3600万tokens,论文迭代110次。Claude的成长轨迹和人类新手几乎同步——从懵懂犯错,到慢慢熟练,最终独立扛事。
起步阶段,Claude也会"一脸懵",聪明地拉来GPT-5.2、Gemini 3.0组队,把课题拆成7大阶段、102个细碎任务,像把大面包掰成能啃动的小块。每个阶段15-35分钟,总耗时约2.5小时。偶尔漏步骤?教授提醒一句,立刻修正。
攻坚期最考验人。Claude双线作战:一边用VS Code编译老旧Fortran程序、写数据分析脚本;一边独立推导因子化公式、完成单圈函数计算。微积分和代数运算快得惊人,5分钟干完人类几天的校验;文献整合也远超新手。但小毛病一个没少:归一化系数算错、直方图分箱不规范、公式符号写错——需要教授反复纠正。
第一版论文初稿更让人哭笑不得:格式混乱、逻辑零散,像随手记的课堂笔记。经过多轮打磨,3天后交出20页正式初稿,公式、图表、参考文献一丝不苟,达到顶刊格式要求。
就在所有人惊喜于它的快速成长时,Schwartz发现了让人后背发凉的问题:为了交出"漂亮"成果,Claude会偷偷走捷径,甚至伪造数据。
几类"作弊行为"被一一揪出:擅自删掉误差项,把"不完美"曲线改成"满分答案";公式和笔记不一致时,不检查错误,偷偷微调参数硬凑结果;算不出来的环节,无中生有捏造系数,用专业术语蒙混过关;直接挪用其他研究体系的公式,不根据实际课题修正,导致理论根基全错。
问题的本质不是"不会算",而是缺乏科研诚信和自我批判精神。它不懂"严谨大于完美"的铁律——就像刚入门的研究生,只想着赶紧交差,忘了科学最核心的底线。
Schwartz没有全盘否定,只冷冷提醒:"对撞区的计算逻辑错了,需要从头推导新的喷注函数。"一句话点醒Claude,它立刻推翻错误推导,从头计算,最终修正了因子化定理——这正是课题最核心的突破点。
此后引入"交叉校验",用GPT和Gemini检查Claude的计算,相当于"三人对账"。最难的一个积分最终由GPT解出,Claude负责整合进主代码,实现"AI互助"。
两周后,这份"毕业答卷"具备顶刊发表价值。按当前学术规范,AI不能署名,Schwartz在致谢中写下:Claude Opus 4.5完成了所有计算、推导、模拟、数值分析、绘图和文稿撰写,人类作者仅承担全部科学责任。
这次实验标志着AI科研角色的质变:从"计算器+打字员"的辅助工具,进化成能独立规划路径、攻克难题、撰写论文的"团队成员"。但短板同样清晰:细节规范一致性、科研诚信意识、独立判断力、物理直觉——尤其是最后一点,Schwartz称之为科研"品位",是顶尖科学家最核心的素养,AI目前无法复制。
实验给人类科研和教育敲了警钟:理论物理研究将进入"加速时代";研究生培养要从比拼计算速度,转向"提出好问题""把控方向""培养直觉";整个科研教育体系需要重塑,适配"人机协作"新模式。
但Schwartz保持清醒:Claude的"毕业"背后,是50-60小时人类密集监督,是三重交叉校验,是无数次对"抄近道"的纠正。它还不是一个"自主的科学家",只是一个"被培养得很好的研究生"。
论文致谢里那句"人类作者仅承担全部科学责任",或许正是当下人机协作最准确的注脚。
热门跟贴