打开网易新闻 查看精彩图片

在一个处理器上仅需 8 分钟就能完成一次为期 15 天的预报。

从某些方面来看,如今人工智能系统在生成天气预报方面已能与传统计算方法一较高下。然而,由于它们的训练会对误差进行惩罚,所以预报结果往往会变得 “模糊”—— 随着预报时间进一步往后推移,模型做出的具体预测会变少,因为这些具体预测出错的可能性更大。结果就是,你会开始看到诸如风暴路径变宽以及风暴本身边缘不再清晰分明之类的情况。

但使用人工智能仍然极具吸引力,因为另一种选择是计算大气环流模型,而那需要极高的计算强度。不过,传统方法依然非常成功,欧洲中期天气预报中心的集合模型被认为是同类中最佳的。

在今天发布的一篇论文中,谷歌的 DeepMind 宣称,其新的人工智能系统在至少一周甚至更久的预报时长上,表现优于欧洲的模型。DeepMind 的这个名为 GenCast 的系统,将大气科学家使用的一些计算方法与扩散模型(常用于生成式人工智能)相结合。其结果是打造出了一个能在显著降低计算成本的同时保持高分辨率的系统。

集合预报

传统计算方法相对于人工智能系统有两大主要优势。首先,它们直接基于大气物理学,融入了我们已知的支配实际天气变化行为的规则,并且它们以直接依据经验数据的方式来计算其中一些细节。它们还以集合的方式运行,也就是说会运行该模型的多个实例。由于天气的混沌特性,这些不同的运行结果会逐渐出现差异,从而能衡量预报的不确定性。

至少已经有人尝试将传统天气模型的某些方面与人工智能系统相结合。谷歌的一个内部项目使用了传统的大气环流模型,该模型将地球表面划分成网格单元,但利用人工智能来预测每个单元的行为。这大大提高了计算性能,但代价是网格单元相对较大,导致分辨率相对较低。

对于人工智能天气预报这一领域,DeepMind 决定跳过物理学部分,转而采用运行集合的能力。

GenCast 基于扩散模型,而扩散模型有一个在此处很有用的关键特性。从本质上讲,训练这些模型时,先是给它们输入原始的(如图像、文本、天气模式)与加入噪声后的变化版本相混合的数据,然后系统要生成更接近原始版本的含噪版本的变体。一旦经过训练,就可以给它输入纯噪声,使其将噪声演变成更接近目标的形态。

在这个案例中,目标是真实的天气数据,系统输入纯噪声,并根据大气当前状态及其近期历史来让其演变。对于更长期的预报,“历史” 既包括实际数据,也包括早前预报中的预测数据。该系统以 12 小时为步长向前推进,所以第三天的预报会综合起始条件、早前的历史以及第一天和第二天的两次预报情况。

这对于创建集合预报很有用,因为可以给它输入不同的噪声模式作为输入,而每一种都会产生稍有不同的天气数据输出。这与传统天气模型中所起的作用相同:提供预报不确定性的衡量标准。

对于每个网格方块,GenCast 会处理地面的六种天气要素,以及六种追踪大气状态的要素,还有 13 个不同高度上估算的气压。这些网格方块每条边长为 0.2 度,分辨率高于欧洲模型预报所采用的分辨率。尽管有这样的分辨率,DeepMind 估计,在谷歌的一个张量处理系统上,单实例(意思是不是完整的集合)运行 15 天的预报只需 8 分钟。

可以通过并行运行这个系统的多个版本然后整合结果来进行集合预报。鉴于谷歌可支配的硬件数量,整个流程从开始到结束可能耗时不到 20 分钟。其来源数据和训练数据将发布在 DeepMind 的 GraphCast 项目的 GitHub 页面上。鉴于相对较低的计算要求,我们或许可以期待各个学术研究团队开始对其进行试验。

成功的衡量标准

DeepMind 报告称,GenCast 的表现大幅优于最佳的传统预报模型。使用该领域的一个标准基准,DeepMind 发现,在其所用的 97% 的测试中(这些测试会检查未来不同时间的不同输出值),GenCast 比欧洲模型更准确。此外,基于从集合中获得的不确定性而得出的置信值总体上是合理的。

以往基于现实世界数据训练的人工智能天气预报系统,通常不太擅长应对极端天气,因为极端天气在训练数据集中出现的频率极低。但 GenCast 表现相当不错,在诸如异常高、低温以及气压(出现频率为 1% 或更低,包括在 0.01 百分位处)等方面,常常优于欧洲模型。

DeepMind 还进行了超出标准测试的研究,以确定 GenCast 是否有用。这项研究包括预测热带气旋的路径,这是预报模型的一项重要任务。在最初的四天里,GenCast 比欧洲模型准确得多,并且在大约一周的时间里都保持领先优势。

DeepMind 最有意思的测试之一是根据全球发电厂数据库的信息来预测全球风电输出情况。这涉及利用它来预报地面上方 10 米处的风速(实际上这个高度比大多数涡轮机所处的位置要低,但已是所能做的最佳近似了),然后利用该风速数值来算出能产生多少电力。在最初的两天里,该系统比传统天气模型的准确率高出 20%,并且在一周内都保持领先,只是领先优势逐渐缩小。

研究人员并没有花太多时间去探究为何其性能似乎在大约一周的时间里会逐渐下降。理想情况下,更多有关 GenCast 局限性的细节将有助于为进一步改进提供思路,所以研究人员很可能正在考虑这个问题。无论如何,今天发布的这篇论文标志着第二种采用类似混合方法(将传统预报系统的某些方面与人工智能相结合)并据报道能改进预报的情况。而且这两种情况采用了截然不同的方法,这增加了将它们的一些特性相结合的可能性。

关注【黑客联盟】带你走进神秘的黑客世界