在云端的另一端,一群当今世界上最聪明的人工智能正端坐在“考场”里,与北京大学化学与分子工程学院的174名大二学生展开了一场特殊的同场竞技。

这不仅是一场精心设计的“图灵测试”,更是北大科研团队为大语言模型投下的一块“试金石”。

近日,北京大学化学与分子工程学院联合北大计算中心、计算机学院及元培学院团队,共同发布了最新研究成果——SUPERChem。他们没有沿用常见的通用测试集,而是以一套纯正的“北大试卷”为标尺,冷静而严谨地丈量着AI在科学推理能力上的真实边界。考试现场:一场特殊的期中考

打开网易新闻 查看精彩图片

考试现场

翻开SUPERChem的题库,扑面而来的是一种令人屏息的“压迫感”。

晶体结构的精细解析、反应机理的深度推演、物化性质的定量计算……这500道题目绝非网络上随手可得的公开习题,而是源于对高难度试题和前沿专业文献的深度改编与重构。

为何要不遗余力地“自讨苦吃”,重新构建一套题库?

“因为大模型太会‘背书’了。”团队成员一针见血地解释道。互联网上可及的标准化测试题,大多已被那些博闻强识的AI在预训练阶段熟读于心,甚至可以说是烂熟于“芯”。而化学,恰恰是一门不能只靠死记硬背的学科——它既有严密的逻辑推演,又充满了对微观世界的空间想象。

“我们非常好奇,大语言模型基于一维文本的nexttokenprediction(下一个词预测)机制,究竟能否真正解决二维化学结构、甚至三维空间中的复杂推理问题?”

要设计一套让AI“没见过”、必须依靠硬实力推理的题目,难度极高。然而,这正是北大化院的独特优势所在。近百名师生集结于此,其中不乏奥赛金牌得主,他们决心给AI出一套高门槛、重推理、防作弊的顶级试卷。

他们要考的,是AI是否真的“懂”化学。学术共创:一场寓教于乐的“游戏”

在学术界,构建高质量的评估集往往是一项枯燥且艰巨的工程。但这群年轻的北大人却别出心裁,将其变成了一场充满活力的“游戏”。

为了构建这套高质量的评估集,团队搭建了一个专属的协作平台。在这里,出题、审题、修题不再是单调乏味的机械任务,而演变成了一套循序渐进、充满成就感的“通关”流程。

在这个平台上,成员们实时协作,互相审阅、彼此“找茬”。严谨的科学探讨与活跃的思维碰撞在这里交织共融,形成了一种独特的学术氛围。

为了进一步激发大家的创造力,团队还引入了积分激励系统。出题过程仿佛在游戏中“打怪升级”:

• 编写初稿 :完成基础题目的构建;

• 撰写解析 :提供详细的解题思路与步骤;

• 初审与终审 :每个环节均由不同的同学层层把关,通过后才能获得相应积分。

据统计,一道终审通过的题目,甚至最多迭代过15个版本。这种近乎苛刻的打磨,确保了题库的每一道题都经得起推敲。SUPERChem:重新定义化学AI的基准。

打开网易新闻 查看精彩图片

SUPERChem题库的三阶段审核流程

SUPERChem不仅仅是一套试卷,它更是一个标杆。它试图回答一个核心问题:在高度专业化的科学领域,AI的“智能”究竟达到了何种水平?

打开网易新闻 查看精彩图片

前沿模型在SUPERChem上的表现

打开网易新闻 查看精彩图片

前沿模型的正确率与RPF关系

通过与人类顶尖学子的同场竞技,SUPERChem揭示了当前大模型在面对复杂化学推理时的优势与短板。它表明,虽然AI在信息检索和模式识别上表现出色,但在涉及深层逻辑、空间想象和跨学科知识综合运用的“硬骨头”面前,依然面临着巨大的挑战。

打开网易新闻 查看精彩图片

输入模态对不同模型的影响

打开网易新闻 查看精彩图片

推理断点所属化学能力分布

结语

北大团队通过这场特殊的“考试”,不仅为大语言模型的科学推理能力提供了一份详实的“体检报告”,更为未来的AI辅助科研与教育指明了方向。

在这场云端与现实的交锋中,无论输赢,科学探索的边界都在被一点点拓宽。而SUPERChem,正是那把丈量智慧深度的尺子。

(来源:北京大学版权属原作者 谨致谢意)