引言|一场由中国主导的“学术核爆”

2025年12月18日,一篇名为《Evaluating LLMs in Scientific Discovery》的论文横空出世——由杭州AI for Science初创公司深度原理(Deep Principle)领衔,联合哈佛、MIT、剑桥、牛津等全球24所顶尖高校共同发布。

论文上线X平台后一夜爆火,阅读量逼近200万,评论超3万条。Keras之父François Chollet疾呼:“我们迫切需要新思路!”NBA独行侠老板Mark Cuban亲自转发,硅谷风投、欧洲家族办公室、《自然》审稿人纷纷涌入讨论。

更戏剧性的是:OpenAI几乎同步发布同类研究。但结果令人震惊——GPT-5、Claude-4.5等顶级大模型在真实科研任务中的平均正确率不足12%,甚至不如一名普通本科生。

这场由中国团队点燃的“评测革命”,正在重塑全球AI竞争格局。

一、现象:外网炸锅的“中国时刻”

  • 引爆点:Chollet一条推文点燃AI圈,Cuban等名人接力转发。
  • 参与方:a16z合伙人、MIT教授、欧洲资本、期刊审稿人集体围观。
  • 核心亮点:论文第一单位为“Deep Principle, Hangzhou, China”——中国初创企业首次主导全球性AI for Science评测标准。
  • 中美同频:OpenAI同期发布《FrontierScience》,但中国团队以开放共建+真实数据赢得国际话语权。
这是海外舆论第一次真正“向东看”。
二、背景:AI for Science的“皇帝新衣”高分≠高能
  • 大模型在GPQA、MMMU等题库上刷出90%+高分;
  • 但在真实科研中(如核磁共振解析),错误率超60%,不如大三学生
评测体系失灵
  • 现有benchmark本质是“开卷考试”——模型见过原题;
  • 真实科研是“闭卷探索”:需提出假设、设计实验、分析异常、修正理论。
“能在题库拿高分,就能助力科学发现吗?” ——深度原理CTO 段辰儒
美国的焦虑
  • 2025年11月,美国启动“创世纪计划”,欲十年翻倍科研生产力;
  • 但现实骨感:AI for Science融资240亿美元,商业化成功率不足5%
  • GPT-5训练碳排放≈5000辆汽车一年,实际科研贡献仅提升3.2%
三、破局:SDE评测体系——一场“反刷题”革命

深度原理推出SDE(Scientific Discovery Evaluation),直击LLM软肋:

四大维度,精准打七寸

维度

要求

LLM表现

多步推理

从现象推导机制,设计验证实验

GPT-5得分仅8.7%

不确定性量化

对预测标注置信区间

Claude-4.5错误率73%

实验-理论闭环

根据数据修正理论

91%模型拒绝承认错误

跨领域迁移

融合不同学科知识

准确率从70%骤降至<12%

验尸报告:顶尖LLM ≈ 平庸本科生

  • SDE-Hard难题中,GPT-5、Claude-4.5等平均正确率仅10%-12%
  • 人类对比:博士生35%、硕士生18%、本科生14%;
  • 更讽刺:GPT-5算力增12倍,准确率仅提升3.2%,性价比极低。
“模型记住了整个互联网,却不理解如何优雅地说‘我不知道’。” ——哈佛医学院 王梦迪教授
四、解法:中国“梦之队”的破局密码团队背景
  • 创始人段辰儒、CEO贾皓钧均为MIT化学/物理化学博士,95后;
  • 2024年初回国创业,获高瓴、线性资本、蚂蚁投资;
  • 与晶泰科技、深势科技深度合作,扎根工业一线
SDE四大创新
  1. 动态难度调节:防刷分,实时适配模型能力;
  2. 过程性评价:不仅看答案,更评推理路径;
  3. 反事实测试:故意设陷阱,检验“科学警觉性”;
  4. 开源共建:24家机构每季度更新题库,保持前沿性。
商业化闭环:评测即产品
  • 只有通过SDE认证的AI,才能接入真实材料研发项目;
  • 3家世界500强化工企业已要求供应商AI工具必须通过SDE中级认证;
  • 欧洲某材料巨头CTO:“SDE给了我们一把评估AI效果的尺子。”
五、未来:从“算力战争”到“场景战争”全球影响
  • Nature Machine Intelligence已邀稿解读SDE,2026年3月刊发;
  • a16z将SDE得分纳入AI for Science投资核心指标;
  • MIT、斯坦福宣布:2026年起博士生AI科研能力参考SDE认证;
  • 多家大模型公司转向“科学方法论嵌入”,放弃纯堆参数。
给普通人的三点启示
  1. AI不是神:在科研中仍处“学徒期”,无法替代人类创造力;
  2. 中国已上桌:从应用追随者变为规则制定者;
  3. 警惕“评测通胀”:未来要看是否连接真实场景,而非刷榜分数。
“别盯着刷榜,扎进行业一线——真实的问题,比完美的模型更有价值。” ——段辰儒
数据来源 极客公园、新智元、36氪、智源社区(2026年1月) Deep Principle技术博客 & arXiv预印本(2025年12月18日) 段辰儒MIT博士论文(2024)
互动设计
  1. 你用过AI辅助科研/学习吗?→ 评论区打:1(经常) / 2(偶尔) / 3(从没用过)
  2. 分享一次“被AI坑”的经历→ 它是否“看起来专业,实则错误百出”?
  3. 对“AI正确率不如本科生”感到意外吗?→ 是AI被高估?还是科研本就极难?
  4. 中国成规则制定者,意味着什么?→ 评测标准权 vs 模型性能,哪个更重要?
  5. 未来你会如何选择AI工具?→ 是否会关注“真实场景测试数据”?

#AI科学融合#

当评测回归真实,泡沫才能沉淀为价值。 这场由一个中国创业团队点燃的“学术核爆”,或许正是AI走向科学发现的真正起点。