一个数学家会因为什么被记住?拉宾的答案是:他教会计算机"抛硬币"。

2026年4月14日,94岁的迈克尔·拉宾(Michael Rabin)去世。这位1976年图灵奖得主、非确定性自动机(nondeterministic automata,一种能同时探索多条路径的理论计算模型)的共同发明者,生前最后的工作单位是哈佛大学。他的职业生涯横跨理论数学、密码学、分布式系统,但最反直觉的贡献在于——他证明了"随机性"本身就是一种可计算的资源。

打开网易新闻 查看精彩图片

这篇讣告式的学术回顾,藏着几个值得拆解的问题:为什么一个研究"自动机"的数学家能拿到图灵奖?他的工作如何影响了今天的人工智能安全?以及,为什么他的方法论——用概率解决确定性问题——正在成为大模型时代的底层逻辑?

反常识的起点:数学家"不认可"计算机科学

拉宾1931年生于德国布雷斯劳(今波兰弗罗茨瓦夫),4岁随家人移民巴勒斯坦。他的父亲是拉比(犹太教神职人员),却坚持把儿子送到海法最好的中学,师从数学家埃利沙·内塔尼亚胡——没错,就是后来以色列总理本雅明·内塔尼亚胡的叔叔。

1948年,17岁的拉宾高中毕业,随即被征召参加第一次中东战争。数学家亚伯拉罕·弗兰克尔亲自向军方求情,让他提前退役进入希伯来大学。这个细节很重要:拉宾的学术生涯从一开始就被"数学建制"庇护,却也让他更早看清这个建制的盲点。

1956年普林斯顿博士毕业后,拉宾29岁成为希伯来大学数学研究所主任,33岁晋升正教授。但他回忆这段经历时说了一句关键的话:「数学家完全不认可这些关于计算的研究,他们不认为这是一个新兴领域。」

这是1960年前后的学术现实。"计算机科学"尚未独立成科,图灵奖也才设立第二年。拉宾和达纳·斯科特在IBM兰布庄园写的论文《有限自动机及其判定问题》,今天被视为计算复杂性理论的奠基之作,但当时只是"暑期研究项目"的成果。

更有趣的是动机来源。拉宾第二次去IBM时,约翰·麦卡锡(John McCarthy,人工智能学科创始人)给他讲了一个间谍、卫兵和密码的谜题。这个场景驱动的思考方式,让拉宾写出了《计算函数的困难程度与递归集的层级》——计算复杂性理论的早期框架。

从间谍谜题到数学定理,从暑期项目到图灵奖。拉宾的路径说明:理论突破往往来自"不正经"的问题来源,而非学科内部的正统议程。

核心贡献:为什么"抛硬币"比"穷举"更高效

拉宾-斯科特定理的核心是非确定性自动机。简单解释:确定性自动机像一条单行道,每个输入对应唯一状态转移;非确定性自动机则像分叉路口,可以同时探索多条路径,只要有一条通向接受状态就算成功。

这个模型看似"不现实"——物理计算机不能真的并行无限路径。但它的理论价值在于:它精确刻画了"验证比求解更容易"这一现象。这正是P与NP问题的直觉来源。

但拉宾没有止步于理论。1960年在贝尔实验室,他引入了概率自动机(probabilistic automata,通过随机决策实现状态转移的计算模型):机器通过抛硬币来决定状态转移。这看起来是"退步"——给确定的计算引入随机性——实则开辟了全新范式。

拉宾后来与加里·米勒合作的素性测试算法(Rabin-Miller测试),完美展示了这一范式。传统方法验证一个大数是否为素数,需要确定性计算,复杂度高;拉宾-米勒测试引入随机采样,以极高概率给出正确判断,计算量大幅降低。

这个算法的实用性超出预期。今天每台HTTPS连接的设备都在运行它的变种。当你看到浏览器地址栏的锁形图标时,背后就有拉宾1960年代的思想遗产。

关键洞察在于:随机性不是噪声,而是可量化的计算资源。拉宾证明了"有控制的随机"可以突破确定性计算的效率瓶颈。这与今天大模型的训练逻辑惊人地呼应——随机梯度下降、Dropout正则化、采样生成,本质上都是"用随机性解决复杂问题"。

辩论:拉宾的方法论过时了吗?

拉宾的学术遗产在今天面临两种截然不同的解读。我们需要把它们摆出来,再给出判断。

正方:随机性范式正在统治AI时代

支持这一观点的证据很充分。大语言模型的核心训练方法是随机梯度下降(Stochastic Gradient Descent,一种通过随机采样优化模型参数的技术), inference阶段的温度参数(temperature,控制输出随机性的调节系数)直接调节采样随机性,RLHF(基于人类反馈的强化学习,一种对齐模型行为的技术)引入的随机探索机制。

更深层的是安全领域。拉宾晚年参与的"秘密共享"(secret sharing,将秘密拆分给多方保管的密码学技术)和多方计算研究,正在成为隐私计算的基础设施。零知识证明(zero-knowledge proof,证明者能在不泄露信息的情况下验证陈述真实性的密码学协议)的交互式证明系统,延续了拉宾"概率验证"的思想脉络。

从素性测试到区块链,从自动机理论到差分隐私,"可控随机性"的版图在扩张而非收缩。拉宾1980年代预言的"分布式系统中随机算法的必要性",已被比特币的共识机制验证。

反方:确定性方法正在回归

但另一股趋势同样真实。2024年以来,AI领域出现明显的"去随机化"动向:推理模型(如OpenAI的o系列)强调确定性思维链,减少采样波动;形式化验证(formal verification,用数学方法严格证明系统正确性的技术)在关键系统(自动驾驶、医疗AI)中的需求激增;量子计算研究者正在寻找"真正的随机性"来源,以替代伪随机数生成器。

更根本的批评是:拉宾时代的随机性是"计算受限时的妥协",而今天的算力过剩让这种妥协不再必要。当GPU集群可以暴力穷举时,概率算法的效率优势是否还存在?

一个具体案例:大模型的"幻觉"问题。其根源正是生成过程中的随机采样。行业正在投入大量资源减少这种随机性——通过检索增强生成(RAG,结合外部知识库减少模型胡编的技术)、约束解码、确定性验证层。这与拉宾"拥抱随机性"的方法论方向相反。

判断:两种范式需要重新整合

我的判断是:这场辩论的前提本身需要更新。拉宾的真正贡献不是"随机优于确定",而是建立了量化分析随机性的数学框架——计算复杂性理论。

这个框架让我们能够精确回答:对于特定问题,随机性能带来多大效率提升?需要多少随机比特?错误概率如何控制?这种"元能力"在今天反而更加稀缺。

当前AI领域的困境恰好说明这一点。我们不知道大模型为什么能涌现推理能力,无法预测特定输入的输出行为,缺乏对"幻觉"发生条件的精确刻画。这不是随机性太多的问题,而是对随机性理解太少的问题——我们还没有拉宾式的复杂性理论来刻画神经网络的行为空间。

拉宾的方法论价值在于:把"不可控的黑箱随机性"转化为"可分析的可计算资源"。今天的AI安全研究,需要的正是这样的理论工具。

被低估的遗产:从理论到工程的翻译能力

拉宾的职业生涯有一个容易被忽视的模式:他持续地在理论突破和工程应用之间切换。

1950年代末的自动机理论是纯数学。1960年的概率自动机开始面向物理实现。1970年代的密码学工作直接服务于安全通信。1980年代转向分布式系统,与丹尼·杜勒夫(Danny Dolev)合作的"拜占庭将军问题"相关研究,影响了区块链共识设计。晚年回到耶路撒冷,他推动的密码学基础设施成为以色列网络安全产业的底层技术。

这种"双向翻译"能力在学术界罕见。大多数理论家满足于定理证明,大多数工程师困于具体实现。拉宾却能在IBM的暑期项目、贝尔实验室的应用研究、哈佛的学术职位之间无缝切换,且每个阶段都产出奠基性工作。

一个细节:拉宾-米勒测试最初是理论结果,但拉宾本人参与了后续的实用化改进。他知道"概率素性测试"要从学术论文变成TLS协议(传输层安全协议,互联网通信加密标准)中的标准代码,需要解决具体的工程问题——随机数源的质量、错误概率的边界、对抗性输入的防护。

这种"全栈"视角在今天更加重要。大模型研究正面临类似的翻译挑战:理论上的可学习性结果,如何指导训练数据的选择?注意力机制的数学性质,如何转化为推理优化的工程决策?拉宾的职业生涯提供了一个历史参照——这些翻译工作是可能的,且往往产生最大的实际影响。

最后的问题

拉宾去世时,94岁,仍在工作。他的最后一个学术职位是哈佛大学计算机科学系的戈登·麦凯教授——以工程应用命名的讲席,而非纯数学教职。这个细节或许比任何定理更能说明他的自我定位。

我们今天纪念他,不是因为非确定性自动机或素性测试本身,而是因为他示范了一种思考方式:当面对看似需要穷举的复杂问题时,先问——随机性能否替代确定性?验证能否替代求解?分布式协作能否替代集中计算?

这些问题在1950年代是理论好奇,在1970年代是密码学需求,在1990年代是互联网协议,在2020年代是AI安全。拉宾的遗产不是答案,而是提问的框架。

那么,在大模型试图用更多参数、更多数据、更多算力"暴力求解"通用智能的今天,我们是否忽略了某种更优雅的随机化路径?当整个行业沉迷于Scaling Law(规模定律,模型性能随规模可预测提升的经验规律)时,拉宾的方法论是否提醒我们:效率提升不仅来自"更大",也可能来自"更聪明地随机"?