哲学被写进了这本浩瀚的书中,它一直在眼前打开着(这本书就是宇宙),但如果不首先花时间去理解撰写这本书用到的语言和字母,那就不可能理解它。这本书用数学写就,其中的字母就是三角形、圆形,以及其他几何图形,假如缺少它们的话,人类就无法凭借自己的力量抓住任何一个单词;假如没有这些手段的话,我们就要面临在黑暗迷宫中游荡的危险。

伽利略(1564—1642)

来源 | 《贝叶斯的博弈:数学、思维与人工智能》

作者 | 黄黎原

译者 | 方弦

要解释抽象方法超出常理的有效性,这个宇宙的逻辑深度似乎正是关键所在。

1 数学的深度

1 数学的深度

尽管深度学习大有成为机器学习中抽象方法之巅的势头,但跟数学这片山峦相比,它只能算是个小山丘。在人类建立的所有宏大体系之中,数学比起其他造物要远远更抽象、更深刻。数以千计的著作堆积起来,朝抽象的方向越走越远,即使是最厉害的数学家也要认真、努力,才能沉浸于其他人创造的抽象概念之中。

要揭开寥寥几个方程的部分秘密,可能就需要数年甚至数十年的沉思。一些最伟大的数学家甚至把职业生涯的大部分时间花在同一个方程上。维拉尼这样讲过:“玻尔兹曼方程,真是世界上最美丽的方程(……)!我在还小的时候就遇到了它,我的意思是,在我读博士的时候。”狄拉克也说过,以他的名字命名的方程所包含的智慧超出了他本人的智慧,他没有料到这个方程在物理上的推论,尤其是在他年轻的时候 [7]。而我期望能在这本书中与你顺利分享于我而言贝叶斯公式及其出人意料又难以置信的推论的迷人之处。从创作本书的两年前开始,它们就令我激动不已,而且它们很有可能会在之后漫长的岁月中继续令我着迷!

的确,要用我们有限的大脑皮层一步一步理解的话,数学实在是太深刻了。为了衡量数学对象,我们必须时时寻觅大体的解释:为了思考向量,我们必须想象出一个箭头;为了思考非欧几何,我们必须想象一块被拉扯变形的布;而为了证明有关素数的定理,我们就必须仔细考虑它们的已知性质。

而通常来说,当我们面对数学推理中堆积成山的计算步骤时,可能想立刻放弃努力思考,只想机械地依据计算规则做到最后。“闭上嘴,然后去计算。”戴维·默明就是这样概括量子力学的哥本哈根诠释的。人们可能会以为,这在科学上是种错误的做法。我们不是要尝试理解周遭的世界吗?如果这就是目的,那就应该放弃过度的数学抽象。

但贝叶斯公式的作用并不是让可靠的理论适应人类大脑的认知能力。它的目的是预测。如果宇宙的逻辑深度很大,那么最好的预测方法很可能需要极为大量的推理步骤,但这些步骤都对应着深入的计算,它们必然超出了我们的直觉。

尤其,数学的深度并不是直觉思考所能比拟的。毕竟,我们的直觉似乎只能进行迅速的计算。因此,直觉推理并没有什么逻辑深度。我认为,这就是对数学超出常理的有效性的主要解释。也就是说,这种有效性并非因为宇宙的本质就是数学(我本人在理解这个概念上很有困难),而是来自这个宇宙当前物理状态的逻辑深度,尤其是因为存在一些逻辑深度很大而所罗门诺夫精致度很小的现象。除此之外,还有我们认知能力上的限制。

2 数学的简洁

2 数学的简洁

数学超出常理的有效性的第二个解释就是其惊人的简洁性。说到底,本书中绝大部分内容可以归结为贝叶斯公式,它可以用寥寥几个字符来描述。换句话说,这本书可以用比自身简洁得多的方式来描述。书中都是冗余的内容,它的所罗门诺夫精致度相对来说很低。此外,我甚至认为无论是谁,只要花上足够长的时间来思考学习的本质,并尝试优化自己的教学方法,都能写出与这本书相当类似的另一本书。我相信对这些人来说,我在这里所写的都是些显而易见的东西,可以轻松被高度压缩。但这些东西对于教学来说非常有用。

数学最伟大的成就之一就是数学语言的汇总,这可以归功于花拉子密。但这还不够。除了简洁以外,花拉子密的数学语言读起来一板一眼,不存在好几种可能的解释,而且无须花时间仔细思考这一语言中每个符号的意义 。事实上,要确定某个形式证明是否正确,只需要一股脑儿去读就行(但要非常专心)。用计算机科学的术语来说,阅读这一语言只需要所罗门诺夫复杂度很小的算法,即使算法所需的计算时间可能很长。

数学简洁性最惊人的例子之一就是电动力学方程。当物理学家詹姆斯·麦克斯韦在 1861 年首次引入这些方程的时候,它们一点都不简洁。然而,数学不断增长的抽象性将这些冗长的方程缩短为几个符号:

其中

当然,要通过这些方程进行预测,就必须用到整套算法工具,但就纯粹计算而言,描述这些工具也不需要多长的篇幅。

这与那些非形式化的理论形成了鲜明对比,后者强烈依赖于对语言和其他人类“常识”的某种解释。然而,语言和常识的算法描述很可能需要数十亿行代码才能接近人类的表现。对于图灵来说,这解释了为什么机器学习对于完全掌握语言和常识来说必不可少。因此,非形式化理论的问题其实不是它们不精确,而是它们需要所罗门诺夫复杂度极大的算法(比如我们的大脑)才能拥有预测能力。然而,如果我们相信所罗门诺夫的偏见,那么所罗门诺夫复杂度极大的理论的先验置信度就会呈指数下降。

当然,自然语言以及人类大脑对它的解释并不是任意而为的。自然选择更偏爱那些能够预测环境和原始部落社会关系的语言和认知过程。然而,这种选择偏好并没有覆盖那些能描述粒子物理学、全球化市场经济和新技术影响的语言和认知过程。对于这些问题来说,即使是非常简化的数学处理,在纯粹贝叶斯主义者的偏见中也会获得优势,这没什么奇怪的。

因此,数学的优雅似乎必将使数学家仔细探索并理解那些简洁的算法,也就是在所罗门诺夫的模型下拥有相当大的先验置信度的算法。所以,我们观察到,那些基于数学语言的最优秀的预测性理论通常在经验中也更可信,这也不是什么惊人的事情。

3 数学的模块性

3 数学的模块性

我想用数学超出常理的有效性的第三个也是最后一个解释来结束这一章,那就是数学的模块性。优雅的数学定理通常处于大量子学科的交叉位置,构建了数学各个方面的桥梁,它们就像一把瑞士军刀,只要使用方法足够巧妙,就能解决大量问题。正因如此,导数、向量空间和图这些概念在几何学、最优化和概率中比比皆是,而且在物理学、计算机科学、生物学、化学和经济学中也无处不在。计算机科学中的比特、列表结构和排序算法也属于这样的概念。定理组成了预测性理论的基石,就像基础算法组成了所有复杂源代码的基石那样。

程序员将算法分解成小块,好让这些基础算法一次又一次地应用在全体代码的不同方面。与之类似,加法和乘法也经常在物理模型中被重复使用,而导数这个概念也通常被应用在各种不同的物理量中。这样的话,仅仅利用非常抽象且具有普遍性的方式一次性给出导数的定义,要比每次使用它的时候都重新定义的做法更简单、更优雅。因此,数学语言让我们可以研究大量不同的模型——不必每次都重新发明轮子。

现在我们来看一个例子,几十年来它已经成为非讲不可的话题。无论是在数学、机器学习、材料科学或经济学中,实践中的大量问题都可以写成在不同约束条件下对某个目标函数的最小化问题。这个框架就是最优化问题,它统一了大量领域。用于仔细分析并解决这个框架之下的问题的方法,比如梯度下降法、局部搜索和遗传算法,都算得上瑞士军刀。通常,如果能用这个框架建立模型,这些方法就能解决大量问题。

理论物理学的情况给人的印象更深刻,尤其是量子场论,它远远不是一个死板的单独理论,而是首先建立在拉格朗日量的量子化的基础之上。的确,自从理查德·费曼应用了最小作用量原理之后,物理学家已经习惯了将他们的量子力学写成唯一一个公式,也叫拉格朗日量,一般来说,它的形式是

无论拉格朗日量的具体表达如何,物理学家下一步就能用一套系统化的方法将这个拉格朗日量转化为涉及偏微分的运动方程(也叫欧拉–拉格朗日方程)。然后,这些方程可以被量子化,接下来就能从方程中得到量子化导出的预测结果。也就是说,将拉格朗日量转化为一组预测,这个过程只不过是单纯(但冗长)的计算。

更厉害的是,规范理论甚至仅仅从拉格朗日量的对称性出发,就能导出它的准确公式。物理对象及其相互作用可以归结为对它们的对称性所组成的群进行抽象研究,这种做法实在令人心醉神迷。诺特定理正是以这种方式从拉格朗日量的时间平移对称性推导出能量守恒,而从空间平移对称性推导出的则是动量守恒。更进一步的话,只需简单提出拉格朗日量在某个群的作用下不变,比如说

这个群,就能由此构筑一个全新的量子场论。这真是干得太漂亮了!理论物理学成功将自身从光子和电子等基本对象中剥离,只需考虑像拉格朗日量的对称群这种抽象得难以置信的概念。

事实上,两个现代理论物理学的伟大发现就是通过将自身限制在这个理论框架中得到的,而且它们远远超前于实验观察的结果。1964 年,默里·盖尔曼和乔治·茨威格正是通过这种方法分别独立提出拉格朗日量应该在

这个群的作用下不变。他们发现,这个对称性意味着质子和中子可以被切分为更基本的粒子,它们被称为夸克。经过数十年的理论研究、实验发现和争议之后,盖尔曼和茨威格的模型最终被广泛接受,自此成为粒子物理学标准模型的一部分。但在那个时候,盖尔曼已经因为其他工作获得了诺贝尔物理学奖。然而,诺贝尔奖委员会不愿意在不向盖尔曼授予第二个诺贝尔奖的情况下单独向茨威格授奖,而且他们也不愿意向盖尔曼授予第二个诺贝尔奖。所以茨威格从来没有得到过诺贝尔奖。

还有比这更惊人的。还是在 1964 年,三组物理学家,分别是弗朗索瓦·昂格勒和罗伯特·布鲁,彼得·希格斯,还有杰拉尔德·古拉尔尼克、卡尔·哈根和汤姆·基布尔,他们各自独立发现在相对论框架下的拉格朗日量表达与带质量粒子的存在性并不相容。为了拯救拉格朗日量这个体系,这六位物理学家引入了一个新的量子场,这个量子场今天被称为希格斯场。表示成拉格朗日量的话,它遵循所谓的规范对称性,但物理状态本身会打破这种对称性。

引人注目的是,经典粒子与对称性破缺的希格斯场之间的相互作用,与粒子本身拥有质量时的行为完全无法区分!更妙的是,对希格斯场及其激发态的量子化让这些研究者能够预言新粒子的存在,这种新粒子叫做希格斯玻色子。你可能也已经知道了,CERN 的大型强子对撞机在 2012 年通过实验发现了希格斯玻色子。第二年,希格斯和昂格勒就获得了诺贝尔奖。

抽象方法又获得了胜利。这当然有运气的成分,但从所罗门诺夫精致度和本内特逻辑深度的角度来看,这里的运气成分似乎并没有想象中那么大……

上文转自人邮图灵新知,作者黄黎原,[遇见]已获转发许可。

《贝叶斯的博弈:数学、思维与人工智能》

作者:黄黎原(Lê Nguyên Hoang)译者:方弦

法国数学类科普书、大学数学参考及教材类图书畅销书目,深受读者好评。
有人生前波澜不惊,死后却名声大振,贝叶斯就是其中之一。以他命名的“贝叶斯定理”堪称一座知识宝库,从神经科学到人工智能,无所不及。
一个充满启示,实现革新,改变人类认知和预测方式,颠覆固有思维的奇妙定理。
入门级读物,谈论科学的新方式,严谨而全面,无须过多数学专业知识也可畅读。