当哥伦比亚大学的大卫·基平(David Kipping)——那位在YouTube“酷世界”频道上向公众讲解天文学的人——坐下来写他那篇预印本论文时,他脑子里翻来覆去的,是一个前美国国防部长留下的难题。唐纳德·拉姆斯菲尔德当年谈论伊拉克大规模杀伤性武器时,发明了一个著名的短语:“未知的未知”。如今这个短语像一枚幽灵卫星,绕到了天体生物学最核心的地带。有些事我们知道自己不知道,这还能想办法。但有些事,我们连“自己不知道”这件事本身都不知道。
问题就从这里开始。价值数十亿美元的太空望远镜项目,不只是航天工程的奇迹,它们骨子里还藏着一整部“谎言、该死的谎言和统计学”的历史。至少是统计学。所有优秀的观测天文学都离不开它。而统计学有个坏脾气:要想把它伺候到能给出一个清晰、确凿的答案,你得喂给它一大堆样本。说得客气点,在宇宙里找到一大堆带着外星生命的行星,这件事本身就有点难。更难的还在后头——你自以为捕捉到的那个信号,到底真的是生命在呼吸,还是某种你压根没听说过的非生物过程在搞鬼,你要怎么证明?
基平这篇挂在arXiv上的论文,核心追问的就是这件事。他和所有天体生物学家一样,站在一个尴尬的十字路口:前方是可能改寫人类自我认知的大发现,脚下却铺满了历史上反复出现的假阳性地雷。人类在这件事上栽过的跟头,可以列出一份令人脸红的清单。从火星上那些后来被证实只是光学错觉的“运河”,到金星大气层里曾让人心跳加速的磷化氢信号——事后都被证明是非生物过程开的玩笑。每一次我们都觉得自己找到了那个“确凿证据”,每一次大自然都摊开手说:不好意思,是你想多了。
而真正让人后背发凉的,还不是那些我们已经知道会捣乱的机制。关键在于,还有无数种我们想都没想到的方式,完全可能在某个甲烷云层里制造出一场闪电风暴,或者搞出某种统计上极其罕见、但完全不需要生命参与的巧合——然后天体生物学家们就会举着这个信号,宣布找到了外星生命的“实锤”。这些就是拉姆斯菲尔德说的“未知的未知”。在统计学里,它们有一个更专业也更麻烦的名字:混淆因子。或者说,假阳性制造机。
天文学家用的大多是贝叶斯统计。这套数学工具在面对不确定的世界时,有个相当诚实的设计:当你不知道某件事发生的可能性有多大时,你就用一个叫“扩散先验”的东西。用人话说,这相当于你先对数学摊牌——“我完全不知道生命在宇宙中有多普遍,我也完全搞不清这个信号到底有多大概率,是由某个我不了解的非生物过程产生的。”诚实是够诚实了,但诚实到你没法往下算。基平在论文里做的事,就是把这种诚实喂进贝叶斯框架,然后看着数字彻底失控。
他给出了一个冷冰冰的门槛。要让贝叶斯因子达到10——翻译一下:这意味着“存在生命的证据强度”是“不存在生命的证据强度”的10倍——你需要调查的行星数量,少则12,366颗,多则44万亿颗。这个区间本身就暴露了扩散先验的可怕:它不是给出一个数,而是撕开一个从“已经让人类绝望”到“让人类看起来像一粒灰”的口子。而且请注意统计规则的另一个苛刻要求:所有这些行星,都必须表现出同一种被分析的生命信号特征。你不能东看一颗、西看一颗,每颗上面都是不一样的生物印记,然后把它们凑在一起计数。统计学不认这种方式。它要求的是苹果对苹果。
然后我们来看看现实。截至论文撰写时,人类确认发现的系外行星总数,大约是6,200颗。也就是说,就算我们把现在所有已知的系外行星数量直接翻一倍——这本身已经是天文数字级别的工作量——并且还要祈祷所有这些新发现的行星,恰好全都展现出同一种潜在生物信号,我们才刚刚摸到那个统计门槛的下沿。注意,只是下沿。不是可靠的中间值,更不是让人安心的上界。是最起码,你才有资格坐下来认真谈一谈“我们找到外星生命了”这句话。
把这件事说得再直白些:短期内,这事没戏。基平在论文里也毫不含糊地得出了这个判断。但他并没有把门完全关上。在那道看似不可逾越的数字高墙里,他确实也提出了一种可能的出路。问题在于,过往天体生物学史上的每一次“大发现”,都在事后被证明是非生物过程在模仿生命的签名。如今我们面对的,是一个更加沉重的统计现实——即便未来的望远镜捕获到了某个真正来自生命的信号,我们很可能也没有足够多的同类样本,来让自己确信这不是又一次宇宙级别的误会。
这大概是科学史上最残酷的一种尴尬:我们可能已经拥有了发现外星生命的技术能力,却不具备让自己相信这一发现所需的统计底气。在贝叶斯公式冷静而诚实的逻辑里,每一个“未知的未知”都在拉低我们可以说“是的,我们找到了”的置信度。而那些未知的未知,恰恰是我们现在甚至不知道该怎么提出的问题。这篇论文真正留下的,不是对某个望远镜项目的否定,而是对整个天体生物学事业的一次数学层面的谦卑提醒——有些答案,可能比我们想象的更贵,也更需要耐心。
热门跟贴