数学界终于对AI的“神话叙事”失去了耐心。
斯坦福大学数学家斯皮尔曼说了句大实话:“你看到的那些关于大语言模型的论文,几乎都是生产这些模型的公司自己写的,读起来更像广告。”这话听着刺耳,但确实戳中了要害。裁判和运动员是同一拨人,这比赛的公信力从何谈起?
数学家们提出的挑战很简单,也很致命:用未解决的数学问题来测试AI,而且不只要最终答案,要完整的、可验证的证明步骤。这和现有的AI数学基准测试完全是两回事。现有测试本质上考的是模式匹配,题目大概率已经存在于训练数据中,高分不代表推理能力,只代表记忆力好。而真正的数学证明要求每一步都经得起检验,你没法靠“背题”蒙混过关。
这个思路真正精妙的地方在于:它把评估从“猜对答案”变成了“生产可被验证器接受的工件”。一旦有了问题集加上自动检查器,整件事就变成了一个工程问题,在有限的时间和算力约束下,能不能产出一个逻辑自洽的证明?这种测试几乎无法作弊。
讨论中有人拿国际象棋做类比,说AI攻克了棋类,数学和物理也迟早会被“解决”。这个类比暴露了一种常见的认知偏差。国际象棋是有限博弈,规则固定,状态可数。数学和物理的疆域没有边界,我们甚至还没搞清楚规则本身是什么。宇宙可观测部分大约只占百分之五,连统一理论的影子都还没摸到。你连地图都没有,谈什么“解决”?
有人搬出混沌理论,认为简单规则可以衍生无限复杂性,所以现实终究是可认知的。混沌理论确实描述了一类对初始条件敏感的确定性系统,但它从未声称所有系统都是确定性的,更没有消灭随机性的存在。它是信息科学工具箱里的一把螺丝刀,不是万能钥匙。认识论的硬边界不会因为本体论上的乐观而消失,贝尔实验早就给天真的决定论判了缓刑。
回到AI本身。说大语言模型是“随机鹦鹉”固然过于简化,但说它在“做数学”同样言过其实。目前的模型擅长的是在已知模式的海洋里冲浪,而数学前沿需要的是在未知的荒野中开路。能复述定理和能发现定理之间,隔着的不是算力,是某种我们尚未理解的东西。
数学家们这次出的题,与其说是刁难,不如说是善意的校准。科学进步从来不怕被证伪,怕的是连证伪的机会都不给。让AI亮出推理过程,对行业是好事。如果它真有本事,透明只会让它更有说服力;如果没有,我们也该早点知道,别再用基准测试的幻觉喂养泡沫。
reddit.com/r/artificial/comments/1r1w56d/mathematicians_issue_a_major_challenge_to_aishow
热门跟贴