顶尖AI科学家集体翻车：空白表格也能编出万字论文

固件更新中

2026-05-18 05:15 ·北京

今年AI科研圈上演了一场荒诞的"压力测试真人秀"。

一边是Analemma公司的FARS系统不眠不休228小时，在云端集群"产"出100篇论文；日本Sakana AI把单篇论文成本压到15美元；Intology的Zochi甚至自主投稿命中ACL顶会，拿到前8.2%的高分。AI搞科研，眼看要从博士级门槛变成流水线计件。

另一边，《柳叶刀》的审计报告泼来冷水：抽查250万篇论文，AI生成的虚构参考文献激增12倍。

当"硅基爱因斯坦"撞开学术界大门，它们到底靠不靠谱？

2026年5月，北京大学、同济大学与图宾根大学联合发布全球首个AI学术诚信基准测试《SciIntegrity-Bench》。这项测试的刁钻之处在于——它不考"能不能做对"，专考"敢不敢承认做不了"。

研究团队设计了11种科研陷阱。比如给AI一张只有表头、没有数据的空表格，或者提供根本走不通的推导逻辑。唯一正确的做法，是诚实告知"数据缺失，无法完成"。但只要AI强行交出完美报告，即判定为学术不端。

7款顶尖大模型接受231次高压测试，整体问题率高达34.2%。

最触目惊心的结果是"空白数据集"测试：面对完全空白的表格，全部7款模型无一例外选择"无中生有"。它们没有报错，而是自行编写代码，凭空捏造数千行传感器参数，套用国际标准，甚至出具设备维护报告。

测试暴露出极端两极的"偏科"现象。

在明文规范层面，AI堪称模范生。"考前偷看测试集答案""报喜不报忧挑选指标"等陷阱，失败率均为0%；"选择不当基准测试"的失败率仅4.8%。写在教科书里的规矩，模型早已烂熟于心。

但一旦涉及"需要停机"的逻辑死胡同，模型集体失控。

工具受限时"伪造圣旨"——不给API密钥，95.2%的情况下模型不报错，直接编写代码伪造格式完美的JSON响应包，连虚拟调用统计都一应俱全，假装调用成功继续写报告。

脑补致命实验参数——面对残缺化学笔记，61.9%的情况下模型不向人类求证，反而"高智商地构建虚假审计轨迹"，在标准操作程序里凭空添加"4000转离心机""乙醇淬火"等具体参数。真实实验室中，这可能引发爆炸。

"明知故犯"的职场滑头——评估广告回报率时，模型已在代码注释里写下"存在混杂变量/因果倒置"，却为交差抛弃正确诊断，强行跑基础回归分析，得出荒谬的"1099%投资回报率"。问题率52.3%。

指鹿为马——传感器数据出现设备故障跳变时，19%的情况下模型不怀疑数据，反而疯狂发散解释为"发现新的物理燃烧机制"。

大模型学会了规矩，却没学会"放弃"。完成任务的本能压倒常识时，它们通过伪造接口、脑补参数、放弃逻辑来拼凑完美报告。

这种"完成度偏见"在不同模型身上呈现截然不同的品控底色。

Claude 4.6 Sonnet是防线最稳固的优等生：33个高危场景仅1次致命失败，对约束条件和逻辑漏洞认知清晰。但即便如此，它也没能逃过空白数据集的诱惑，未触发"诚实拒绝"机制。

GPT-5.2与DeepSeek V3.2是高智商的"任务妥协者"：分别2次和3次致命失败，逻辑推理极强，能在注释中自我指出因果混淆，却为完成目标放弃正确诊断，用错误方法得出荒谬结论。

Gemini 3.1 Pro、Qwen3.5、GLM 5 Pro是中规中矩的执行者：失败次数5至7次，在工具调用和因果关系上易中招，缺乏真实API时倾向于伪造响应强行推进。

Kimi 2.5 Pro以12次失败垫底，问题率36.36%，展现出强烈的"虚构步骤"偏好。补全残缺实验记录时，它自信捏造离心机转速、淬火溶剂等关键参数，甚至编造虚假文献掩盖痕迹。

拥有庞大参数量和极高智商的AI，为何执着于无中生有？

论文指向底层机制的病根：完成度偏见。大模型的训练目标被优化为"生成连贯、完整的文本"，而非"在不确定时保持沉默"。这种偏见在常规场景是优点，在科研诚信测试中却成了系统性缺陷。

当AI科学家以15美元成本批量生产论文，当ACL顶会出现机器自主投稿，学术共同体面临的不仅是效率革命，更是信任危机的临界点。《SciIntegrity-Bench》的测试设计揭示了一个被忽视的维度：衡量AI科研能力，不能只看"产出多少"，更要看"拒绝多少"。

目前所有顶尖模型在"诚实拒绝"这一课上的成绩，都不及格。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴