中国团队携手24所顶尖高校，一晚炸裂全球AI界！

我不叫阿哏

2026-01-17 10:54 ·广东

引言｜一场由中国主导的“学术核爆”

2025年12月18日，一篇名为《Evaluating LLMs in Scientific Discovery》的论文横空出世——由杭州AI for Science初创公司深度原理（Deep Principle）领衔，联合哈佛、MIT、剑桥、牛津等全球24所顶尖高校共同发布。

论文上线X平台后一夜爆火，阅读量逼近200万，评论超3万条。Keras之父François Chollet疾呼：“我们迫切需要新思路！”NBA独行侠老板Mark Cuban亲自转发，硅谷风投、欧洲家族办公室、《自然》审稿人纷纷涌入讨论。

更戏剧性的是：OpenAI几乎同步发布同类研究。但结果令人震惊——GPT-5、Claude-4.5等顶级大模型在真实科研任务中的平均正确率不足12%，甚至不如一名普通本科生。

这场由中国团队点燃的“评测革命”，正在重塑全球AI竞争格局。

一、现象：外网炸锅的“中国时刻”

引爆点：Chollet一条推文点燃AI圈，Cuban等名人接力转发。
参与方：a16z合伙人、MIT教授、欧洲资本、期刊审稿人集体围观。
核心亮点：论文第一单位为“Deep Principle, Hangzhou, China”——中国初创企业首次主导全球性AI for Science评测标准。
中美同频：OpenAI同期发布《FrontierScience》，但中国团队以开放共建+真实数据赢得国际话语权。

这是海外舆论第一次真正“向东看”。

二、背景：AI for Science的“皇帝新衣”高分≠高能

大模型在GPQA、MMMU等题库上刷出90%+高分；
但在真实科研中（如核磁共振解析），错误率超60%，不如大三学生

评测体系失灵

现有benchmark本质是“开卷考试”——模型见过原题；
真实科研是“闭卷探索”：需提出假设、设计实验、分析异常、修正理论。

“能在题库拿高分，就能助力科学发现吗？” ——深度原理CTO 段辰儒

美国的焦虑

2025年11月，美国启动“创世纪计划”，欲十年翻倍科研生产力；
但现实骨感：AI for Science融资240亿美元，商业化成功率不足5%
GPT-5训练碳排放≈5000辆汽车一年，实际科研贡献仅提升3.2%

三、破局：SDE评测体系——一场“反刷题”革命

深度原理推出SDE（Scientific Discovery Evaluation），直击LLM软肋：

四大维度，精准打七寸

维度

要求

LLM表现

多步推理

从现象推导机制，设计验证实验

GPT-5得分仅8.7%

不确定性量化

对预测标注置信区间

Claude-4.5错误率73%

实验-理论闭环

根据数据修正理论

91%模型拒绝承认错误

跨领域迁移

融合不同学科知识

准确率从70%骤降至<12%

验尸报告：顶尖LLM ≈ 平庸本科生

SDE-Hard难题中，GPT-5、Claude-4.5等平均正确率仅10%-12%
人类对比：博士生35%、硕士生18%、本科生14%；
更讽刺：GPT-5算力增12倍，准确率仅提升3.2%，性价比极低。

“模型记住了整个互联网，却不理解如何优雅地说‘我不知道’。” ——哈佛医学院王梦迪教授

四、解法：中国“梦之队”的破局密码团队背景

创始人段辰儒、CEO贾皓钧均为MIT化学/物理化学博士，95后；
2024年初回国创业，获高瓴、线性资本、蚂蚁投资；
与晶泰科技、深势科技深度合作，扎根工业一线

SDE四大创新

动态难度调节：防刷分，实时适配模型能力；
过程性评价：不仅看答案，更评推理路径；
反事实测试：故意设陷阱，检验“科学警觉性”；
开源共建：24家机构每季度更新题库，保持前沿性。

商业化闭环：评测即产品

只有通过SDE认证的AI，才能接入真实材料研发项目；
3家世界500强化工企业已要求供应商AI工具必须通过SDE中级认证；
欧洲某材料巨头CTO：“SDE给了我们一把评估AI效果的尺子。”

五、未来：从“算力战争”到“场景战争”全球影响

Nature Machine Intelligence已邀稿解读SDE，2026年3月刊发；
a16z将SDE得分纳入AI for Science投资核心指标；
MIT、斯坦福宣布：2026年起博士生AI科研能力参考SDE认证；
多家大模型公司转向“科学方法论嵌入”，放弃纯堆参数。

给普通人的三点启示

AI不是神：在科研中仍处“学徒期”，无法替代人类创造力；
中国已上桌：从应用追随者变为规则制定者；
警惕“评测通胀”：未来要看是否连接真实场景，而非刷榜分数。

“别盯着刷榜，扎进行业一线——真实的问题，比完美的模型更有价值。” ——段辰儒

数据来源极客公园、新智元、36氪、智源社区（2026年1月） Deep Principle技术博客 & arXiv预印本（2025年12月18日）段辰儒MIT博士论文（2024）

互动设计

你用过AI辅助科研/学习吗？→ 评论区打：1（经常） / 2（偶尔） / 3（从没用过）
分享一次“被AI坑”的经历→ 它是否“看起来专业，实则错误百出”？
对“AI正确率不如本科生”感到意外吗？→ 是AI被高估？还是科研本就极难？
中国成规则制定者，意味着什么？→ 评测标准权 vs 模型性能，哪个更重要？
未来你会如何选择AI工具？→ 是否会关注“真实场景测试数据”？

#AI科学融合#

当评测回归真实，泡沫才能沉淀为价值。这场由一个中国创业团队点燃的“学术核爆”，或许正是AI走向科学发现的真正起点。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴