此前,业界对AI 能力的评价往往基于“会不会做题”,比如能不能在高考试题上击败人类考生、在奥数竞赛中斩获几块金牌,又或者写出的代码够不够格通过互联网大厂的笔试……
但在这些看似“人类一败涂地,AI大获全胜”的测试背后,科学界一直存在一种冷静甚至审慎的看法:AI 确实很会“做题”,但它能解决那些人类尚未解决的“真问题”吗?毕竟,背诵教科书是一回事,拓展人类知识的边界则是完全不同的另一回事。
许多科学家曾认为,目前的 AI 或许只能做简单的模仿者,无法进行深度的逻辑推理和创新。然而,Google Research 最新发布的一项重磅研究打破了这种质疑,并向我们展示:AI 不仅是只会做选择题的学生,还可以成为人类顶尖学者的“左膀右臂”,共同攻克多个困扰学界已久的难题。
2 月 3 日,Google Research 联合卡内基梅隆大学、哈佛大学、麻省理工学院等多所顶尖高校研究人员共同在预印本平台 arXiv 提交了一篇论文:《利用 Gemini 加速科学研究:案例研究与通用技术》(Accelerating Scientific Research with Gemini: Case Studies and Common Techniques),详细记录了前沿大语言模型,特别是具备增强推理能力的 Gemini Deep Think 及其变体,如何从传统的辅助工具转变为理论科学研究中的实质性合作者。
研究团队通过展示 Gemini 系列大型语言模型在理论计算机科学、物理学、经济学等多个领域的实际应用,证实了 Gemini 在解决开放性数学问题、反驳长期存在的猜想以及生成复杂新证明方面具备卓越性能,还总结出了一套行之有效的人机协作方法论。
为了让 Gemini 真正参与专家级的科研工作,研究人员首先构建了几项关键的协作规则。首先是“迭代提示与改进”,即模型很少能一次性解决深奥问题,需要通过多轮对话,由人类研究员将大问题分解为可验证的子任务,并提供高层级的证明框架(即“脚手架”),引导模型逐步填补技术细节。
其次是“思想的异花授粉”(Cross-Pollination of Ideas),团队利用模型摄取了跨学科海量文献的优势,借助其识别出不同数学领域之间,可能被人类专家忽视的隐秘联系。
此外还有“神经符号循环”(Neuro-Symbolic Loops)技术,即将模型嵌入自动化的编程环境中,让模型生成数学公式,同时编写代码对假设进行数值验证,根据执行错误(如 Python 回溯信息)自主修正推导路径,从而在没有人类干预的情况下修剪无效的推理分支,形成一个自我修正的闭环。
这些框架搭建完成后,Gemini 随即在分属多个领域的科学研究中展现出巨大的应用潜力。首先,在密码学领域,Gemini 指出了一种前沿协议的致命漏洞。这一名为“简洁非交互式论证”(SNARGs)的协议,旨在保护区块链和隐私计算,如果这个错误未被发现,未来的数字安全可能面临巨大风险。
具体来看,针对一篇声称基于容错学习(LWE)假设实现简洁非交互式论证(SNARGs)的预印本论文,研究人员设计了一种“对抗性自我纠正”的提示策略,要求模型严格批判自己的发现。结果,Gemini 敏锐地指出,论文中“完美一致性”定义与实际构造仅能实现“统计一致性”之间存在严重的逻辑缺陷,这一发现随后得到了密码学专家和论文原作者的确认。
“在线次模福利最大化”(online submodular welfare maximization)是一个经典的经济学与算法问题,研究如何在需求未知且逐个出现的情况下,例如在实时广告竞价或云计算资源分配中,将资源分给不同的人以最大化整体满意度。这里的“次模”指的是边际效益递减,即拥有的越多,新获得的价值就越低。
此前,谷歌研究科学家尼蒂什·科鲁拉(Nitish Korula)等人提出过一个与之相关的猜想,认为某种贪婪算法的效率界限可以被进一步提升。基于此,Gemini 并未顺着原假设的思路进一步证实,反而自主构建了一个涉及 3 个物品和 2 个代理的具体反例,并通过繁琐的期望计算成功反驳了该猜想。这是 AI 罕见地在研究者没有给出明确答案的情况下,直接利用真实科研语境否定了一位人类学者(还是谷歌自己人)提出的猜想。
借助掌握海量跨学科知识的优势,Gemini 在数学领域的难题中另辟蹊径,为算法难题提供颇具创新性的几何解法。最大割(Max-Cut)是一个图论问题,旨在寻找一种分割方式,使被切断的连接线数量最大,这也是网络流和芯片设计中常用的基础算法之一。
为解决其中关于近似算法精度的一个长期开放问题,Gemini 跳出了传统的组合优化思路,将其重构为一个几何泛函分析问题,并创造性地建议应用斯通-魏尔斯特拉斯(Stone-Weierstrass)定理(一项关于函数逼近的数学定理)来建立必要的方差界限。
在计算几何领域中,针对斯坦纳树问题(如何以最短路径连接多个点),存在一个关于“单纯形是最佳图嵌入结构”的猜想。Gemini 发现,解决问题的关键实际在于希尔伯特空间映射中的基尔斯布劳恩(Kirszbraun)扩展定理,这个定理通常用于分析函数的平滑性(Lipschitz 连续性),人类研究者此前往往认为它过于深奥而不予考虑。但 Gemini 正是借助这一晦涩的数学工具,成功完成了从任意图嵌入到星形图嵌入的形式化映射证明。
类似地,正则二分图常用于通信网络建模,为改进其完美匹配数量下界,Gemini 综合运用了统计物理中的贝特(Bethe)近似、数论中的互质整数分析以及谱图理论中的伊原-巴斯(Ihara-Bass)恒等式,给出了比施赖弗(Schrijver)界限更强的理论结果。
涉及复杂运算和算法优化的学科时,Gemini 展现出惊人的“精算师”与“优化师”能力。在理论天体物理学中,科学家试图通过引力波探测宇宙大爆炸后的遗迹——宇宙弦。然而,预测其引力辐射涉及一个极度振荡且具有严重奇点的球面积分计算,这是该领域的一个长期难题。
为此,研究团队构建了一个神经符号系统,Gemini 在其中推导数学公式,并编写 Python 代码与数值基准进行比对。通过这种反馈循环,AI 自主发现了六种不同的解析路径,最终结合盖根鲍尔(Gegenbauer)多项式展开,为这一难题推导出一个精确的闭式解。
在大数据处理中,如何在有限的内存中从海量数据流里筛选出最有价值的信息(次模函数最大化)是一个核心问题,Gemini 敏锐地发现,现有分析中存在一个潜在自由度:算法中的阈值参数不应是全局固定的,而应根据处理状态动态调整。
通过引入状态依赖阈值,AI 推导并证明出一个优化的递推关系,将算法的近似比从约 0.55 精确提升到了 2-√2。同时,在流算法的香农熵(Shannon Entropy)估计中,AI 观察到,算法其实只需依赖低阶矩,从而避开了高方差区域,这一洞察直接将内部状态变化的复杂度界限从多项式级大幅优化至多对数级别。
此外,论文还证实,Gemini 已经有能力重塑论文写作的全流程,甚至出现了“代码化”论文写作的趋势。例如,在理论计算机科学领域,著名的复杂性理论专家、Computational Complexity 博客博主兰斯·福特诺(Lance Fortnow)尝试使用集成了 AI 的 IDE 开发环境,通过高层级的提示进行“氛围编程”(Vibe-coding)。
当对复杂性类 SP2(涉及博弈论与计算复杂性)进行研究时,Gemini 不仅可在几乎没有人工干预的情况下,自主生成关于搜索问题与决策问题等价性的主要证明,被指出推论中的假设错误后,还迅速将证明策略修正为归约法,几乎独立完成了一篇高质量理论论文的初稿。
论文还在更多学科中考验了 Gemini 解决实际难题的能力。如在机制设计领域,AI 帮助将原论文中基于有理数报价的结论推广到了实数域,利用拓扑学和序理论替代了原有的计数性论证。
在信息论领域,AI 通过分析优化图景和利用超压缩性不等式(Hypercontractivity),对著名的库尔塔德-库马尔(Courtade-Kumar)猜想做出了实质性贡献,包括将其推广到非平衡函数以及改进了高噪声区间的界限。
这一系列成果表明,前沿 AI 模型已经具备了在理论科学中进行实质性贡献的能力,而非简单的辅助工具。它不仅能优化算法、推导公式,还能跨越学科壁垒,甚至从人类专家的盲点区域找到新的可能性。
然而,论文也强调,目前的这种成功仍高度依赖于人类专家的“脚手架”支持和严格验证,类似于目前已广为人知的“Vibe-coding”,这种人机协作模式被形象地称为“Vibe-proving”——即利用 AI 的直觉生成证明草稿,再由人类进行严格审查。
为了彻底解决模型可能产生的幻觉问题,未来的研究方向将是用利用 Lean 或 Coq 等交互式定理证明器,将 AI 生成的非形式化数学推导转化为绝对严谨的形式化证明,从而在根本上保证科学发现的正确性,甚至有望得到同行评审的信任。
参考资料:
https://arxiv.org/pdf/2602.03837
排版:刘雅坤
热门跟贴