西班牙洪灾死200人，人工智能被打脸，天气变了老办法不管用？|人工智能|尼斯|气候学|洪灾|西班牙

近日新闻报道，时间是统计学家的敌人。即便在人工智能系统时代，如果一个天气模型只建立在过去的数据和统计原理之上，在气候变化背景下，它也可能难以准确预测未来的降雨量，原因很简单：情况本身在变化。

2024年10月西班牙洪灾的惨烈画面，很多人都还记得。这场灾害造成200多人死亡，成为西班牙自1962年洪灾以来死亡人数最多的一次洪水事件。

随着人工智能方法不断普及，有人或许会疑惑，为什么准备仍然不足。以法国气象局使用的欧洲中期天气预报中心模型为例，该模型近来已引入一个名为AIFS的人工智能模型，以提升预报表现。

那么，在气象学和气候学已经广泛部署人工智能方法的情况下，为什么瓦伦西亚洪灾仍未能被提前预判？在进入正题之前，我想先说明一个关键点：我不是气候学家，也不以此自居。因此，我不会详细讨论那些我掌握还不够充分的气象现象。

但我熟悉时间序列数据研究。借助这个气象事件的可预测性问题，我想解释一个统计学界至今仍在研究的重要问题：数据漂移。首先，需要对这一气候事件做一点形式化描述。

如果今天是9月15日，那么明天布雷斯特下雨的可能性就远高于尼斯。也就是说，“下雨”这一事件在布雷斯特的概率明显高于尼斯。

但如果明天布雷斯特真的下雨，出现极强降雨的可能性其实很低。相对而言，如果明天尼斯下雨，它发展成地中海型降雨事件的可能性就高于布雷斯特。因此，在已知“明天会下雨”的前提下，尼斯出现强降雨的概率高于布雷斯特。

我们不可能完全掌握这种分布，也就是说，不可能精确知道某一地点在某一时刻降下某一雨量的概率。不过，科学家手中确实有一系列工具，可以学习并预测这些事件。

降雨分布的一个例子是：在下雨日，某一降雨量出现的概率。在这个例子中，一天内降雨12毫米的概率为5%；如果降雨达到40毫米或以上，就属于极端而罕见的事件。

这些工具大多由统计学家开发。他们会观察过去的数据，尝试复现其行为模式，以便预测未来数据。以这里讨论的问题为例：地中海沿岸城市需要预测极端天气过程，尤其是降水量，以便提前部署非常措施，例如向居民发送提示降雨或洪水风险的短信。

为此，研究者会收集目标区域周边多个地理点位的气象观测数据，包括气温、气压、风速、风向等。通过训练算法，让它利用当天的数据去预测未来两三天内发生地中海型降雨事件的概率；如果判断可能发生，还要进一步预测降水量。行政部门随后可以结合其他模型——无论是物理模型还是统计模型——来评估当地不同区域的洪水风险。

遗憾的是，随着气候变化，气候本身也在改变。对统计学家来说，这句话的含义是：“一个基于过去数据训练出来的模型，今天还能否正确预测明天的降雨量？”

现在假设，我们用这些数据训练一个模型来预测未来两天的累计降雨量：把J日的各种指标输入模型，希望得到J+1日和J+2日的累计降雨量。直觉上，这个模型几乎不可能给出超过200毫米的结果，而且这种直觉是现实的：它为什么要这么做呢？统计模型并不是用来“思考”全新情况的，它的任务是复现已经从数据中学到的行为，也就是那些在统计意义上本来就可能在过去出现过的模式。