好看的数学故事
在最终的分析里,所有的知识皆归为历史。
在抽象的意义下,所有的科学均纳入数学。
在理性的思考中,所有的判断都基于统计。
——C. R.劳(印度裔美国数学家和统计学家)
从早到晚,我们每天都需要面对可能发生的事情做出成千上万有意识或无意识的选择。在漫长的人生道路上,需要做抉择的事情更是层出不穷。在考虑和抉择的过程中,一个极为重要的概念就是概率。
从流传数千年的投币和骰子游戏到古老的八卦,从古印度《吠陀经》的韵律到希伯来字母排列的神秘咒语……古人们逐渐发现了排列与组合的基本规律。
通过字母分析破译密码,通过死亡记录探究传染病的危害、新生婴儿的性别比例、居民寿命的期望值和保险年金……统计学在人类社会从古典结构进入现代结构的发展过程中发挥了极其重要的作用。
天文学、实验物理学和数学的发展推动了概率统计理论的公理化、定量化。误差分析被系统化、理论化;最小二乘法成为科学数据分析的重要手段。统计理论与微积分的发展使得流行病传染模型得以建立……在这数千年的发展史中,研发概率统计理论的人们有着各种各样的故事。有的滑稽、有的悲哀,有的惊险,有的恐怖。读者会从这些故事中得到启迪,在有趣的故事中加深对概率与统计的了解。
一枚硬币的多张面孔
硬币在人类历史上曾经是非常重要的。中国是最早使用硬币的地区之一,早在殷商的晚期(大约公元前11世纪),人们就开始使用硬币了。这种硬币是用青铜仿照天然贝壳的形状铸造的,所以又叫铜贝,它们显然是从更早时期以天然贝壳作为钱币的方式发展而来的。中国的古钱采用很多非常有趣的形状,比如刀形的和耒形的。耒是古代用来挖地的铲子。到了战国时期,秦国和魏国开始使用环形硬币。再后来秦始皇统一了中国,开始统一使用圆形方孔的硬币。在古希腊,人们大约从公元前7世纪开始使用接近圆形的金币和银币。扁圆形逐渐成为最主要的硬币形状。在中世纪的欧洲,有钱人的标志是他们随身携带的钱袋,里面沉甸甸地装满了硬币。
硬币不仅仅被用于购物。以投掷硬币来决定输赢是最古老的游戏之一。通常是两个人玩,每人事先给出自己的猜测,是正面还是反面,然后由一个人把硬币丢到空中。硬币在空中必须是翻转的,以增加不确定性。硬币落下的时候,或者用手抓住,或者让它落到地上,等到停止滚动以后,检查是正面还是反面。猜中者为赢。但是,只说“我赢了”不过瘾,于是就押赌注。古罗马人把扔硬币的游戏叫做“船或头”,因为古罗马硬币通常一面是一艘大船,一面是皇帝的头像。在古代英国,硬币通常一面是十字架,另一面是国王的头像。那时候,英国人把这个游戏叫做“十字架和背面”。美国的说法,Heads and Tails,就是正面和反面的意思。
直到今天,在一场球赛开始之前,还是用扔硬币来决定哪一方先开球,或者选择场地。你可能想不到吧,有时候科研文献的作者顺序也是靠扔硬币来决定的。随着科学研究的日益复杂化,合作变得越来越重要,科研文献的作者名单也越来越长。为众多的合作者确定合理的作者顺序是一件很头疼的事,因为合作者的贡献在很多情况下无法定量确定。于是我们有时会在科学杂志的文章末尾看到类似这样的脚注:“作者顺序是根据扔掷硬币的结果确定的。”
还有呢?许多人都听过汪峰的《硬币》吧?
你有没有看见手上那条单纯的命运线?
你有没有听见自己被抛弃后的呼喊?
你有没有感到也许永远只能视而不见?
你有没有扔过一枚硬币选择正反面?
我们都有感到孤立无助、无可奈何的时候,命运似乎掌握在一个看不见摸不着却又无所不在、无所不知的神秘力量手中。遇到这样的情况,在需要做决定的时候,我们感到无所适从。怎么办呢?
现代心理学的开创者弗洛伊德建议人们扔一枚硬币。为什么呢?他说:“我并不是说你应该盲目地遵从硬币的结果。我只是想让你注意硬币给出的结果的指向,然后询问自己:我是高兴呢,还是失望?这可以帮助你捕捉自己内心深处的感觉和期望。由此出发,你就可以朝着正确方向做出决定。”
为什么扔硬币呢?因为硬币有两面,扔出一枚迅速旋转的硬币,落到地面或捉到手里时,结果只有两个可能,要么正面,要么反面。直觉告诉我们,出现正面和反面的机会应该是相同的,一半对一半。
但是,是什么原因使得硬币的两面出现的机会相同?故意造假的情况我们不去考虑,即使是规规矩矩地制币,正面和反面出现的机会就一定是一样的吗?
法国著名博物学家布封伯爵可能是第一位亲手检验这个直觉的人。布封出生在一个富有而富有影响力的家庭,是个名副其实的富二代。应该说,一般人能想象到的荣华富贵他都享受到了,可是他最大的爱好却是读书和写作。写作对他来说跟参加宫廷宴会一样令人兴奋,一丝一毫不能懈怠。每天早上,在开始写作之前,他一定要穿上最讲究的绅士盛装。长长的假发编满了精致的卷花,身上的丝绸外套是当时法国最时髦的,里面的衬衫绣满花边,领子高高立起,一直顶住下巴。这是当时法国上流社会最为时尚的男人打扮。他觉得只有如此,写作的灵感才能源源不断地涌出。他就这样坐在书桌前,写啊写啊,从早写到晚,写了40年,写出了洋洋洒洒整整36卷的巨著《自然史》,还有许多难以计数的小文章。
《自然史》是一套百科全书,它涉及那个时代所谓“自然科学”的全部内容:生物、化学、物理、材料科学、地质学、工程技术,等等。在这套鸿篇巨著里,布封首次提出一种假说,认为地球上的动物和植物是通过自然演变而成为现在的样子的。这个假说对达尔文的进化论有深刻的影响。
身穿盛装,正襟危坐的布封把一枚法国硬币扔了4040次,其中2048次是正面,占总数的50.69%。也就是说,对布封手里的硬币来说,出现正面的机会比反面稍稍多一点。
一天到晚忙于写书的布封为什么对扔硬币这么感兴趣呢?
大约150年后,又有一位学者坐在桌前扔硬币了。
这位英国学者名叫皮尔逊,当时在欧洲非常有名。他在20多岁的时候(1880年前后)就成为历史学和德国文化专家,写了很多关于哥德、德国宗教和戏剧方面的专著。剑桥大学聘请他为德国学教授,可他又同时能够为数学系代课。不久,他干脆跑到伦敦大学学院去,并成为那里应用数学与力学系的系主任。
皮尔逊也是著作等身的大家。他一共写了将近40本专著,内容从宗教剧到社会主义,从物理到进化论,从肺结核治愈率到白化病,从酗酒后遗症到优生学,影响非常广泛。1902年,23岁的爱因斯坦召集几个朋友在他的公寓里定期讨论物理和哲学问题,并给他的学习小组取名为奥林匹亚学院。他给大家推荐的第一本书就是皮尔逊的《科学的法则》。在这本书里,皮尔逊宣称自然规律的不可逆性只是一个相对的概念。如果一个观测者丝毫不差地按照光速运动,那么他看到的将是永恒,世界的一切将毫无运动的迹象。他还揣测说,假如观测者能以超过光速的速度运动,那么世界的运动就都是向后退的,如同把电影胶片从结尾向开头演放。他甚至还讨论了反物质、第四维度和时间的褶曲。这些讨论当然都只是纯粹的想象,但它们对爱因斯坦的影响十分巨大而深远。
整天忙于写作的皮尔逊竟然把一枚英国硬币扔了24000次,其中12012次是正面,占总数的50.05%。
我们不免再问一句,为什么这些整天忙于思索和研究的学者要花大量的时间来研究扔硬币这个看上去挺无聊的事情呢?
在数学上,我们用概率的概念来描述一个事件出现的可能性。概率是一个介于0和1之间的实数。扔硬币属于最简单的概率问题,因为它只有两种可能。在扔起一枚硬币之前,我们无法预测即将得到的是正面还是反面。我们把这种现象叫做随机过程。硬币出现正面和反面的可能性是一样的,也就是说正面和反面的机会各有50%。在这种情况下,我们就说出现正反面的概率相等,都是0.5。
在古代,人们把这类无法预测的可能性归结于天意,觉得猜对的一方有神明相助。因此,在不值得用武力解决争端的时候,扔硬币是一种双方比较能够接受的方式。也正因为它的不确定性,扔硬币成为最古老的游戏之一。后来学者们扔硬币,是因为它是最简单的概率问题。几个世纪的时间里,人们从研究这个问题入手,逐渐完善了概率和统计的理论。
布封和皮尔逊实验的结果里面有不少细节,我们后面还会再讨论,不过从实用的角度来说,在扔出一枚硬币之前,对于即将出现的结果,正面和反面的机会应该是均等的。这种随机性则被很“公平地”用来处理一些问题。比如,在一场球赛开始之前,通常就用扔硬币来决定哪一方先开球。
那么,怎样才能正确地评估一枚硬币是“公正”的呢?
这就需要概率和统计学的知识了。
二次大战期间,另一位英国统计学家克里奇又重复了扔硬币的实验。克里奇的实验是在无可奈何的情况下进行的。他本来是一名大学的数学讲师。1940年4月,他和妻子到丹麦首都哥本哈根去拜访岳父岳母,正好遇到纳粹德国入侵。作为敌国英国的公民,他被德国人拘留,关押在丹麦中部维堡地区的一座小城的监狱里。看守这里的是依附纳粹的丹麦部队,生活环境比纳粹集中营宽松多了。可是长期被关押,不知何时是尽头,心理上仍然是很艰难的。为了消磨时间,克里奇找到一名难友,两人一起进行概率和统计学实验。他们把一枚丹麦克朗扔了10000次,并作了详细记录。他们发现,正面出现了5067次,占50.67%。这个结果同布封的结果非常相近。
1945年,二次大战结束不久,克里奇把在押期间实验的结果写成一本书《概率理论的实验引论》,讨论统计学理论在实验中的应用,其中投硬币的结果占了相当大的篇幅。下图列出连续2000次投掷那枚克朗的结果。为了读者阅读方便,我们把图1.2中的前100个投掷结果列在表1.1中。
图1.2 克里奇在书中记载的投掷丹麦克朗前2000次的实验结果。1代表硬币的正面,0代表反面。
表1.1 克里奇硬币实验的前100投硬币出现正面(1)和反面(0)的结果
怎样才能正确地评估一枚硬币是“公正”的呢?直觉告诉我们,投的次数越多,最终的平均概率值就越接近于一个稳定值。如果硬币是“公正”的,那么这个稳定值就是0.5;如果硬币是被人做了手脚的,那么这个稳定值就明显大于或小于0.5。
克里奇的数据使我们可以仔细研究投掷硬币的过程。首先让我们看看,在他的实验里,出现正面的比例是如何随着投币次数来变化的。我们把出现正面(也就是数值为1)的情况按照投币次数的编号累计起来,再除以累计次数,就得到在某个累计次数时出现正面的平均比值。比如,从图1.2我们看到,前三次的结果都是0,所以出现1的平均比值都是0。第四次出现了1,那么投到第四次时出现正面的累计平均比值是(0+0+0+1)/4=0.25。
图1.3 克里奇投币实验的前100个结果。我们看到,出现正面的累计比值是“震荡”式的,它并不随着投币次数的增加而单向地趋向于理想值0.5。
图1.3显示,对于图1.2给出的实验数据,出现正面的平均比值并不是平滑或者单向地趋向于最终的0.5067。这个比值在第15次时冲到0.6,可到了第94次时又落到0.4255。如果我们把2000个数据点都拿来计算累计平均值,我们就得到图1.4所示的结果。我们看到,累计平均比值随着投币次数的增加呈波动状变化,不过波动的幅度越来越小,逐渐趋向于0.5。
图1.4 克里奇实验连续2000次投掷硬币出现正面的结果。
那么,需要投掷多少次才能有把握地评估一枚硬币是否“公正”呢?图1.4似乎是说,要投1000次以上。可是,图1.4的结果可靠吗?
现在,让我们设想身着皇家晚宴盛装的布封伯爵坐在铺着雪白桌布的镶金雕银的大桌子面前,手里握着一枚金币。他把旋转的金币抛到空中一米左右的高度,眼盯着它落到桌面上。金币停稳之后,他叫道:“正面!”然后用一只鹅毛笔把结果记录到一张巨大的白纸上面。我们假定布封用阿拉伯数字1代表正面,0代表反面。
他又扔了一次。“正面!”
白纸上又出现了一个1。
第三次。“正面!”布封的脸上开始出现惊奇的表情。
第四次。“又是正面!多么的不可思议啊!”他大声叫道。
为什么呢?
我们前面说过,每投一次,硬币出现正反面的概率都是一样的,都是1/2。每一次在布封扔出手里的金币之后,他都不能预测将要出现的是哪一面。那么为什么连续出现四个正面会让他惊讶呢?下一投一定会是反面吗?
首先让我们看看,连掷四次硬币会有几种可能性。还是用1代表正面,0代表反面,我们把各种情况都考虑进去,一共16种:1111,1110,1101,1011,0111,1100,0011,1010,0101,0110,1001,1000,0100,0010,0001,0000。
由于每一次1和0的出现都是随机的,那么这16种情况出现的概率就都是等同的。所以,连续投掷硬币四次,出现1111的概率是1/16=1/(2×2×2×2)=1/2⁴。
连续掷五次硬币,出现11111的概率是多少?我们可以像上面连掷四次硬币的情况那样,把所有的可能性都列出来,但是随着投掷次数的增加,数目越来越多,很容易出错。更简单的方法是先考虑第五次投掷硬币的可能性。这当然只有两个(1和0)。这两个可能性,每一个都可以跟投掷四次的16个可能性结合,所以,一共有2×16个可能性。这种考虑方式可以一直应用到任何一个投掷次数n。所以,对于n次投掷来说,连续出现n个正面的概率是1/(n个2连乘)。
捷克出生的英国剧作家斯托帕尔德写过一部从莎士比亚的名剧《哈姆雷特》衍生出来的荒诞剧,里面讲到哈姆雷特的两个大学同学在接到国王克劳迪的命令之前利用硬币来打赌。其中一个连续扔了92次,每次都是正面。他们觉得有点儿不对劲。
不是“有点儿”不对劲,而是非常不对劲。任何一个计算器都可以告诉我们,连续得到92个正面的概率是4,951,760,157,141,521,099,596,496,896分之一!为了比较起见,美国的彩票(Lottery)在积累到16亿美元时,一张彩票中奖的概率大约是300,000,000分之一。
现在让我们回过头来再看图1.4。仅仅依靠这张图,我们并不能对投掷2000次硬币做出一个确定的描述,因为图1.2给出的数据只是一种实验结果。根据上面的分析,2000个数据的排列方式应该有22000种。我们已经看到,292是一个28位数,22000则要大得太多了。对这么多的可能性逐一进行分析是绝对不可能的。
那么,是否投掷很多次硬币就能确定它是否“公正”呢?
这个问题,雅各布·伯努利花了20年时间才想明白。在他的名著《猜度术》里,伯努利第一次发现,在n趋于无限大的时候,一枚公正的硬币出现正反面的概率都是0.5。伯努利的这本著作被公认为是概率论作为一门数学科学诞生的标志。
关于概率论发展的故事我们在本书的后面会接着讲。但是在讲这些故事之前,需要一些准备知识,包括排列组合、无穷数列及其极值等等。它们的故事我们接下来慢慢讲。
王雁斌 著
华东师范大学出版社
978-7-5760-1683-3
89.80元
全书分为上中下三篇,分别讲述了古典概率的故事、统计概率的故事和近代科学概率的故事。从流传数千年的投币和骰子游戏到古老的八卦,从古印度《吠陀经》的韵律到希伯来字母排列的神秘咒语,古人们逐渐发现了排列与组合的基本规律。当阿拉伯的骰子游戏传入经过文艺复兴的欧洲,概率的概念开始明晰起来。起初的概率,多半应用在赌博游戏上,不仅是投币和骰子,还有纸牌、赛马等等。这些东西在学术领域似乎不值一提,但古典概率理论一旦出现,立即在社会各个领域发现重要的应用价值。统计学随之而生。通过字母分析破译密码,通过死亡记录探究传染病的危害,新生婴儿的性别比例,居民寿命的期望值和保险年金,统计学在人类社会从古典结构进入现代结构的发展过程中发挥了极其重要的作用。天文学、实验物理学和数学的发展推动了概率统计理论的公理化、定量化。误差分析被系统化、理论化;最小二乘法成为科学数据分析的重要手段。统计理论与微积分的发展使得流行病传染模型得以建立。达尔文的演化论和孟德尔的遗传学展示了物种演化的奥妙,为了探究本因,一系列的统计学方法陆续出现。但并非所有的数据分析理论都是有深奥庄严的理由,有时候酿制啤酒也会产生新的统计理论。有心人总会有收获。概率统计理论在世界大战当中拯救了数千万人的生命。如今它深入人工智能,开始挑战人类的智慧了。在这数千年的发展史中,研发概率统计理论的人们有着各种各样的故事。
作者简介
王雁斌
1982年毕业于北京大学地球物理系,1985年入美国纽约州立大学石溪分校深造,1991年获得地球物理博士学位。现任芝加哥大学研究教授。已出版科普作品《数学现场:另类数学史》等。
目录
本期编辑:R
热门跟贴