引言|一场由中国主导的“学术核爆”
2025年12月18日,一篇名为《Evaluating LLMs in Scientific Discovery》的论文横空出世——由杭州AI for Science初创公司深度原理(Deep Principle)领衔,联合哈佛、MIT、剑桥、牛津等全球24所顶尖高校共同发布。
论文上线X平台后一夜爆火,阅读量逼近200万,评论超3万条。Keras之父François Chollet疾呼:“我们迫切需要新思路!”NBA独行侠老板Mark Cuban亲自转发,硅谷风投、欧洲家族办公室、《自然》审稿人纷纷涌入讨论。
更戏剧性的是:OpenAI几乎同步发布同类研究。但结果令人震惊——GPT-5、Claude-4.5等顶级大模型在真实科研任务中的平均正确率不足12%,甚至不如一名普通本科生。
这场由中国团队点燃的“评测革命”,正在重塑全球AI竞争格局。
一、现象:外网炸锅的“中国时刻”
- 引爆点:Chollet一条推文点燃AI圈,Cuban等名人接力转发。
- 参与方:a16z合伙人、MIT教授、欧洲资本、期刊审稿人集体围观。
- 核心亮点:论文第一单位为“Deep Principle, Hangzhou, China”——中国初创企业首次主导全球性AI for Science评测标准。
- 中美同频:OpenAI同期发布《FrontierScience》,但中国团队以开放共建+真实数据赢得国际话语权。
这是海外舆论第一次真正“向东看”。二、背景:AI for Science的“皇帝新衣”高分≠高能
- 大模型在GPQA、MMMU等题库上刷出90%+高分;
- 但在真实科研中(如核磁共振解析),错误率超60%,不如大三学生
- 现有benchmark本质是“开卷考试”——模型见过原题;
- 真实科研是“闭卷探索”:需提出假设、设计实验、分析异常、修正理论。
“能在题库拿高分,就能助力科学发现吗?” ——深度原理CTO 段辰儒美国的焦虑
- 2025年11月,美国启动“创世纪计划”,欲十年翻倍科研生产力;
- 但现实骨感:AI for Science融资240亿美元,商业化成功率不足5%
- GPT-5训练碳排放≈5000辆汽车一年,实际科研贡献仅提升3.2%
深度原理推出SDE(Scientific Discovery Evaluation),直击LLM软肋:
四大维度,精准打七寸
维度
要求
LLM表现
多步推理
从现象推导机制,设计验证实验
GPT-5得分仅8.7%
不确定性量化
对预测标注置信区间
Claude-4.5错误率73%
实验-理论闭环
根据数据修正理论
91%模型拒绝承认错误
跨领域迁移
融合不同学科知识
准确率从70%骤降至<12%
验尸报告:顶尖LLM ≈ 平庸本科生
- SDE-Hard难题中,GPT-5、Claude-4.5等平均正确率仅10%-12%
- 人类对比:博士生35%、硕士生18%、本科生14%;
- 更讽刺:GPT-5算力增12倍,准确率仅提升3.2%,性价比极低。
“模型记住了整个互联网,却不理解如何优雅地说‘我不知道’。” ——哈佛医学院 王梦迪教授四、解法:中国“梦之队”的破局密码团队背景
- 创始人段辰儒、CEO贾皓钧均为MIT化学/物理化学博士,95后;
- 2024年初回国创业,获高瓴、线性资本、蚂蚁投资;
- 与晶泰科技、深势科技深度合作,扎根工业一线
- 动态难度调节:防刷分,实时适配模型能力;
- 过程性评价:不仅看答案,更评推理路径;
- 反事实测试:故意设陷阱,检验“科学警觉性”;
- 开源共建:24家机构每季度更新题库,保持前沿性。
- 只有通过SDE认证的AI,才能接入真实材料研发项目;
- 3家世界500强化工企业已要求供应商AI工具必须通过SDE中级认证;
- 欧洲某材料巨头CTO:“SDE给了我们一把评估AI效果的尺子。”
- Nature Machine Intelligence已邀稿解读SDE,2026年3月刊发;
- a16z将SDE得分纳入AI for Science投资核心指标;
- MIT、斯坦福宣布:2026年起博士生AI科研能力参考SDE认证;
- 多家大模型公司转向“科学方法论嵌入”,放弃纯堆参数。
- AI不是神:在科研中仍处“学徒期”,无法替代人类创造力;
- 中国已上桌:从应用追随者变为规则制定者;
- 警惕“评测通胀”:未来要看是否连接真实场景,而非刷榜分数。
“别盯着刷榜,扎进行业一线——真实的问题,比完美的模型更有价值。” ——段辰儒
数据来源 极客公园、新智元、36氪、智源社区(2026年1月) Deep Principle技术博客 & arXiv预印本(2025年12月18日) 段辰儒MIT博士论文(2024)互动设计
- 你用过AI辅助科研/学习吗?→ 评论区打:1(经常) / 2(偶尔) / 3(从没用过)
- 分享一次“被AI坑”的经历→ 它是否“看起来专业,实则错误百出”?
- 对“AI正确率不如本科生”感到意外吗?→ 是AI被高估?还是科研本就极难?
- 中国成规则制定者,意味着什么?→ 评测标准权 vs 模型性能,哪个更重要?
- 未来你会如何选择AI工具?→ 是否会关注“真实场景测试数据”?
#AI科学融合#
当评测回归真实,泡沫才能沉淀为价值。 这场由一个中国创业团队点燃的“学术核爆”,或许正是AI走向科学发现的真正起点。
热门跟贴