不仅能“解奥数题”,还能“出奥数题”。1月26日,国际学术期刊《自然·机器智能》发表了一项来自中国的研究成果,其中提到北京通用人工智能研究院联合北京大学心理与认知科学学院、智能学院、人工智能研究院及武汉人工智能研究院组成的科研团队,研发的“通矩模型”成为全球首个被验证能够同时完成“自主出题”与“自动解题”双重能力的通用人工智能系统。

国际数学奥林匹克竞赛(IMO)的几何题,因其对抽象推理和创造性构造的高要求,一直是检验AI智能水平的“试金石”之一。这类题目不仅要求严谨的形式逻辑推演,还要求一种类似人类灵感的创造性构造能力,例如添加巧妙的辅助线。其难度在于“组合爆炸”:每一步潜在的构造选择都会导致搜索空间呈指数级增长,传统计算方法难以应对。

2024年年初,谷歌旗下深层思维(DeepMind)研发的阿尔法几何(AlphaGeometry)系统在这一领域取得显著进展,展示了AI解决复杂几何问题的潜力,引发关注。

“它本质仍是一个依赖海量合成数据和庞大算力支撑的‘超级解题器’。”此次论文第一作者、北京通用人工智能研究院研究员张驰说,“通矩模型”系统取得的突破在于超越了以往人工智能中展现的“单一解题能力”,意味着AI不仅是一个能解题的“优等生”,还是一位能从无到有、创造出具备数学审美价值题目的“金牌教练”。

他告诉记者,选择IMO几何题作为突破口,正是因为它是衡量机器抽象推理能力的标志性挑战。它要求系统在理解抽象关系的基础上,进行复杂的逻辑链条构建,而最难的环节莫过于创造性地添加辅助元素,这正是传统AI的短板。因此,征服IMO几何题,被视为AI在逻辑推理领域取得实质性突破的关键象征。

“以往的系统,大多只学会了‘计算’,但并未理解‘美’。”张驰说,“我们的研究发现,一道优秀的奥赛几何题,往往具有一个鲜明特征,其证明过程的复杂性与难度,会显著高于题目初始图形的构建复杂度。”

与DeepMind AlphaGeometry主要依赖“大数据+大算力”的范式不同,“通矩模型”践行了一条“小数据、大任务”的创新路径。论文共同通讯作者、北京大学心理与认知科学学院助理教授朱毅鑫说:“‘小数据’并非不用数据,而是追求极致的数据利用效率。这更像人类的学习方式,孩子认识苹果,无需看遍世界上所有苹果的图片,通过少数几个样本和跨场景的推理就能掌握概念。”

在他看来,当前主流大模型训练严重依赖海量数据,如同“需要用堆积如山的煤才能把水烧开”。“通矩模型”则旨在构建一个“高效炉灶”,用少得多的“燃料”完成更复杂的“任务”。为了实现这一点,团队引入了创新的“规范化表示”技术,解决了长期困扰几何推理的“组合爆炸”难题。

能力的飞跃最终需要接受实践的检验。目前,“通矩模型”自主生成的3道原创的几何新题,已入选2024年全国中学生数学联赛(北京赛区)。这是全球范围内,人工智能生成的题目首次进入高规格的人类数学竞赛,标志着AI角色从一个被动应答的“学习者”,进化成为一个能够贡献新知识的“创作者”。

“这项研究的终极目标,始终是回归‘以人为本’。”朱毅鑫说,“发展人工智能,不是为了取代人类的思考,而是为了增强它。希望这项技术能帮助更多学生领略几何推理的乐趣与数学内在的和谐之美,培养下一代的逻辑思维与创新能力。”

来源:中国青年报