谷歌DeepMind发布AI联合数学家,多智能体协作将数学问题正确率从19%提升至48%
谷歌DeepMind近日发布了一款名为AI联合数学家的多智能体数学研究系统。谷歌云首席科学家、DeepMind研究副总裁Pushmeet Kohli在社交平台宣布了这一消息。
在Epoch AI组织的FrontierMath Tier 4基准测试中,该系统在自主模式下取得48%的正确率,解决了48道非公开题目中的23道,刷新所有AI系统的历史纪录。该基准测试题目由教授和博士后专门设计,难度达到短期科研项目级别,专业数学家通常需要花费数天乃至数周才能完成。
作为对比,该系统底层使用的Gemini 3.1 Pro基座模型单独作战时正确率仅为19%。从19%到48%,多智能体协作架构带来了29个百分点的跃升。这一成绩也超过了GPT-5.5 Pro的39.6%和GPT-5.4 Pro的37.5%。
与普通AI模型的一问一答模式不同,AI联合数学家是一个异步、有状态的工作空间。系统顶层设有一个项目协调者Agent,负责拆解数学任务、调度多条研究线并行推进。数学家上传一篇论文后,系统会自动将其分解为子问题,每个子问题分配给不同的专业Agent进行探索。
一个更直观的案例来自牛津大学。牛津大学数学教授Marc Lackenby借助该系统,成功攻克了群论领域Kourovka Notebook中的第21.10号问题。Kourovka Notebook自1965年编纂以来,收录了群论领域一系列长期悬而未决的开放问题,其中不少问题困扰学界数十年。
值得注意的是,AI在首次尝试时给出的证明存在错误。系统中的审查Agent捕捉到了这一漏洞。Lackenby在看到审查结果后意识到漏洞所在,随后通过人机反复配合,最终完成了该问题的完整证明。
Kohli将这一系统定位为数学家的研究搭档而非替代者。DeepMind方面表示,该系统目前已向部分合作数学家开放使用。
市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:听潮
热门跟贴