打开网易新闻 查看精彩图片

对数曾经可能被认为只是老式的方法,用于在滑尺上进行计算。但它们支撑着现代生活的许多方面,从模拟COVID大流行到克劳德·香农的信息数学理论(这使得手机成为现实),再到解释克里斯蒂亚诺·罗纳尔多在Instagram上疯狂的粉丝数量。

这次讲座将探讨对数的基本知识和历史,然后展示它们是如何自然地表示许多模型和数据集的。

打开网易新闻 查看精彩图片

作者:奥利弗·约翰逊Oliver Johnson教授 2024-5-22

译者:zzllrr小乐(数学科普公众号) 2024-5-24

打开网易新闻 查看精彩图片

作者简介

奥利弗·约翰逊 (Oliver Johnson) 是布里斯托大学数学学院信息论教授,兼任统计科学研究所所长。他的研究涉及随机性和不确定性,并包括与工程师、生物学家和计算机科学家的合作。

在新冠大流行期间,他通过他的 Twitter 帐户、第四广播电台的露面以及《旁观者》杂志的文章,成为每日新冠疫情数据的评论员。他是《Numbercrunch》(2023)一书的作者,该书旨在帮助普通读者了解数学作为理解世界的工具包的价值。

引言:求和和疫情数据

如果声称这个看似令人害怕的算式2,147,483,648 × 2,199,023,255,552 = 4,722,366,482,869,645,213,696,就像非常简单的31+41=72一样简单和自然,你可能会感到惊讶。然而,这次讲座的目的是解释,在某种意义上,这是对的,多亏了数学中的对数概念——这一概念最初是由早期格雷沙姆学院教授的著作发展并普及的。

此外,这同一个想法也帮助我们理解诸如新型冠状病毒大流行等话题。在2020年秋季第二波疫情初期的低谷时,克里斯·惠蒂和帕特里克·瓦伦斯在新闻发布会上分享了一张幻灯片,他们受到了新闻界和社会媒体的一定程度的嘲笑。

原因在于,幻灯片展示了指数增长,这对我们中的许多人来说并不是一种自然的可视化和推断过程。这种解读困难的一个原因是数据呈现的方式——使用y轴上的线性刻度。这可能是数字数据的标准化刻度,其中每个步长代表固定的增量增长(在这个情况下每次增加10,000)。

然而,大流行并不倾向于以这种方式线性增长。描述它们演变的方程式表明,乘性变化是思考感染增长更自然的方式。这可以用一种不同类型的y轴刻度来表示,即所谓的对数刻度,我们在这种刻度上绘制病例数的对数,而不是原始数字本身。使用这种刻度,每个垂直步长代表一个固定的乘法增长(例如翻倍)。

在讲座中,我论证如果惠蒂和瓦伦斯在对数尺度上绘制他们的数据,那么第二波的增长就会显得更加自然和可预测。按照这种方式绘制的案例当时接近一条直线,很容易用眼睛外推。如果数据使用对数轴表示,我相信政治家和公众可以更早地理解第二波的危险,并可能采取减少风险的进一步封锁行动。

对数简史

打开网易新闻 查看精彩图片

对数最初是由约翰·纳皮尔(John Napier,1550 - 1617)引入的,但值得注意的是,纳皮尔并没有给出这个函数的最简单和最常见的形式。这一发展是由亨利·布里格斯(1561 - 1630)完成的,他是第一位格雷沙姆几何学教授,并以现代形式描述了对数,这是今天普遍应用的形式。

通过我之前描述的对数刻度,还有一个与格雷沙姆的联系。这样的表示是由天文学的第三位格雷沙姆教授埃德蒙·冈特(Edmund Gunter,1581 - 1626),作为一种表示数值数据的方法发展的。冈特的工作被威廉·奥特雷德(William Oughtred,1574 - 1660)所发展,他将这些对数刻度转化为一个物理设备,即滑尺(slide rule)。

为了理解滑尺的工作原理,本讲座回顾了对数的基本知识。关键之处例如3是8的对数,我们可以通过将2乘以自己3次来得到8。同样,2是4的对数,因为将2乘以自己2次得到4这个答案。(严格来说,这些是底数为2的对数,因为每次我们乘以的数字是2。可以选择其他底数——例如,以10为底的对数构成了地震学中的里氏震级,我们稍后将会看到。)

然后,我们可以理解4x8=32这个总数,通过思考方程左边总共有2+3=5个因子2,2乘以自己5次得到方程右边的32。换句话说,当我们相乘数字时,它们的对数会相加。这是定义对数效果的关键关系,也是支撑我们下面看到的所有实际世界例子的基础。

应用:对数与流行病学

打开网易新闻 查看精彩图片

图源:世界卫生组织WHO

正如我之前提到的,对数使我们能够洞察COVID大流行的进展。这不是巧合。如我描述的,对数刻度在过程倾向于以乘法方式演变的情况下是自然的——而这正是大流行倾向于表现的方式。在最粗略的水平上,至少在流行病早期,每个感染的人都会倾向于感染相同数量的人(这个值就是著名的R值)。因此,感染总数将以相当一致的速率翻倍,从100到200的感染所需的时间大致与从100,000到200,000的感染所需的时间相同。使用对数可以驯服这种野蛮的增长,并帮助我们推断这种到未来的增长。

当然,指数增长不会永远持续。事实上,很明显,这样的反复加倍最终会遍历可感染的人群。然而,在Kermack和McKendrick于1927年发表的经典“SIR”论文中进行了更细致的分析。在这个模型下,每个人都被认为是处于三种状态之一——易感(Susceptible 尚未感染)、感染(Infected 并因此能够感染他人)和康复(Recovered 现在具有免疫力)。通过分析这些不同类别的人在任意时刻的相互作用,Kermack和McKendrick能够推断出存在一个群体免疫阈值Herd Immunity Threshold(略低于整个人口),在这个阈值下,流行病会自然达到顶峰。

进一步地,如我在讲座中描述的,通过将对数应用于这些方程式,我们可以理解对数尺度上的直线增长在某种意义上是大流行的默认行为。虽然数字最终会偏离这种轨迹,但在实践中,这可能比我们希望的要长得多。

一个具体的例子发生在2020年秋季的第二波病毒中。如我之前所述,基于指数增长的简单预测(在对数尺度上表示为一条直线)在一段时间内以很高的精度捕捉了病例和医院入院人数的演变。特别是在讲座中,我展示了如何用我粗糙的预测(在9月中旬)来证明英格兰西北部的医院入院人数将在万圣节前后达到2020年春季波峰的水平。

应用:对数与信息

打开网易新闻 查看精彩图片

另一个对数自然出现的地方是在数学信息学的研究中。你可能会感到惊讶,信息本身可以被当作一种物理资源来量化处理,但美国数学家和工程师克劳德·香农(Claude Shannon,1916 - 2001)在他的1948年论文《通信的数学理论》(A Mathematical Theory of Communication)中提出了许多深刻的见解,为我们提供了一个框架来这样做。

香农认为,我们从某个特定事件发生的事实中了解的信息量应该是一个与该事件概率有关的函数。罕见事件应该带来更多的信息(我从发现罕见动物中,比从发现常见动物中了解到更多关于世界状态的信息),这有助于确定应该使用哪种函数。通过进一步思考我们从两个独立事件中获得的信息量(比如抛硬币和掷骰子)应该是这两个事件各自发生时获得的信息量之和,香农能够论证应该使用的函数是对数。

这一见解使香农能够定义信息论熵(information-theoretic entropy)的概念,这是衡量惊讶程度的指标。它量化了某些随机过程比其他随机过程更随机的观点。此外,香农还展示了这种熵在尝试压缩数据(比如将电脑文件压缩为更小的格式以便于硬盘存储)时所能实现的程度。香农引入了术语“比特”(bit,比特是二进制数字的缩写:一个比特可以是零或一),这是他度量熵量的自然单位。

香农以对数为核心的这些天才见解,使得他的信息理论发展奠定了现代世界的许多基础。我们现在处理的量要大得多,因为我们谈论的是兆字节(megabytes)、吉字节(gigabytes)和太字节(terabytes),这些都是以香农基本单位的巨大倍数而形成。然而,每当你谈判手机合同、检查你的宽带速度或决定购买内存多少的存储卡时,你都是在遵循香农在1940年代开创的技术路线。

应用:对数与社交媒体粉丝

打开网易新闻 查看精彩图片

当我们处理数据的对数而不是数据本身时,常见的情况是当数字跨越多个数量级。例如,标准的里氏(Richter)、pH和分贝(decibel)刻度都是对数刻度——在狭窄范围内处理和理解结果的数字比处理百万、亿或万亿的数字要容易得多。例如,里氏刻度上的每个步长对应于与相应地震相关的能量增加10倍。这意味着里氏9级地震的能量是里氏2级地震的一千万倍(10乘以自己7次)。

另一个数字变化巨大的场景是在比较社交媒体上的粉丝数量。例如,足球运动员克里斯蒂亚诺·罗纳尔多在Instagram上拥有超过6亿粉丝,而有些人则少于60——又是一千万倍的差异。自然而然地,我们会想知道是否有网络进化的法则可以让我们理解为什么会出现这种巨大的差异,以及对数是否给出了这些问题的见解。

20世纪50年代,匈牙利数学家埃尔德什(Paul Erdős,1913 - 1996)和雷尼(Alfréd Rényi,1921 - 1970)提出了一个随机演化的网络的简单模型,但它无法刻画上述提到的Instagram数字中的“大玩家”行为。在这个模型中,每个人都有相同概率跟随任何人,但实际情况远非如此。粉丝网络往往根据所谓的马太效应演变,这个效应来源于圣经中的“凡有的,还要加给他”(马太福音25:29)。例如,一个拥有许多粉丝的Twitter用户可能会获得更多的转发,这意味着他们的内容在网络上通常更加显眼,他们还可以吸引更多的粉丝。

1990年代开发了一些数学网络模型,试图刻画这种行为,理论上这些模型会导致在现实生活中网络数据中经常声称存在的“幂律”(power law)行为。然而,值得注意的是,这些声称的幂律在统计学领域中是相当有争议的!直到今天,关于粉丝计数图的准确结构仍有强烈争论。然而,大家一致认为对数刻度是解决这些争论的正确方式,而查看对数转换后的数字和寻找结果图中的直线是解决这些有争议问题的正确方法。

结论

尽管由纳皮尔在1614年引入并由格雷沙姆学院自己的教授布里格斯和冈特普及和发展,对数仍然是理解现代世界的关键工具。正如我描述的,它们自然适合于理解流行病、信息和社交网络的性质。然而,这只是理解对数和指数增长能够提供对现实生活情况洞察的几个应用之一。

如我在《Numbercrunch》一书中所描述的,由于通货膨胀和利率的复利效应,指数增长是许多涉及金融场景的自然模型。例如,正如在对数尺度上绘制大流行数据导致对COVID数字的良好预测一样,这样的表示自然描述了足球转会费记录。同样,指数增长很好地描述了我们在过去70年左右看到的计算能力的飞速进步,这遵循了被称为摩尔定律的常数速度翻倍轨迹。我们可以期待可再生能源价格的指数下降和电动汽车数量的指数增长,这给了我们希望,技术能够提供超越原生线性推断预测的气候变化解决方案。

对数是一个强大的工具。你使用得越多,你发现的越多,就像流行病和社交媒体例子一样,它们往往有结构上的原因,使它们能够自然地表示数据。

参考资料

https://www.gresham.ac.uk/watch-now/logarithms

·开放 · 友好 · 多元 · 普适 · 守拙·

打开网易新闻 查看精彩图片

让数学

更加

易学易练

易教易研

易赏易玩

易见易得

易传易及

欢迎评论、点赞、在看、在听

收藏、分享、转载、投稿

查看原始文章出处

点击zzllrr小乐

公众号主页

右上角

数学科普不迷路!

打开网易新闻 查看精彩图片