香港大学与武汉大学联手打造卫星图像预测系统|卫星|基线|武汉大学

来源：市场资讯

（来源：科技行者）

这项由香港大学与武汉大学联合开展的研究，以预印本形式发布于2026年6月，论文编号为arXiv:2606.27277，有兴趣深入了解技术细节的读者可通过该编号查阅完整原文。

当你坐在家里滑手机的时候，天空中有数百颗卫星正在不停地拍摄地球表面的照片。这些照片不只是风景大片，它们是农业专家判断庄稼长势的依据，是气候学家追踪森林健康的工具，也是灾害预警系统的眼睛。然而，仅仅拍照记录当下还不够——如果我们能提前预测未来几个月地球表面会变成什么样子，那就可以在干旱彻底摧毁农田之前提前预警，在森林大火发生之前评估风险，在粮食减产之前调整农业政策。

这正是"地球观测预测"这项技术想做到的事情：给卫星图像装上一个"时光机"，让它不只看现在，还能预测未来。但这件事远比听起来复杂得多。

研究团队面对的核心难题，用一个生活中的场景来理解就非常清晰了：假设你是一位园艺师，负责照料一大片草地。你有几张不同时间拍的草地照片，但中间有好几段时间因为阴雨天气根本没拍到，现在你需要根据这几张断断续续的照片，再加上未来几个月的天气预报，预测草地在盛夏会变成什么模样。这不是一道有标准答案的数学题，因为即便天气完全一样，土壤湿度不同、草的品种不同，结果也会截然不同。这就是所谓"部分可观测、天气驱动的世界建模问题"——你永远不可能掌握所有信息，但你必须做出尽可能准确的预判。

研究团队提出了一个叫做EO-WM的系统，名字来自"Earth Observation World Model"，即地球观测世界模型。这个系统的核心思路，是把卫星图像预测重新理解为一种"世界模型"问题——就像游戏里的AI需要通过理解游戏规则来预测下一帧画面，EO-WM需要通过理解天气规律来预测下一张卫星图。更关键的是，这套系统还引入了一套全新的评测标准，专门检验模型是否真的"理解"了天气与地面之间的因果关系，而不只是把图像画得好看。

一、卫星照片为什么这么难预测

要真正理解这项研究解决了什么问题，得先搞清楚卫星图像预测为什么本质上就是一件充满不确定性的事情。

卫星并不是随叫随到的摄影师。以这项研究使用的Sentinel-2卫星为例，它绕地球一圈需要好几天，同一片土地大约每五天才能拍一次。更麻烦的是，只要有云，照片就废了——云层下面的地面完全看不见。这就好比你想追踪一个人的行踪，但他每次出门都可能被大雾遮住，你手头的记录是断断续续的，中间有大量空白。

这种"稀疏观测"的问题，造成了预测工作的第一个挑战：你必须从这些不完整的"快照"里，推断出一个连续变化的故事。

第二个挑战更深刻。天气确实是驱动地面变化的主要力量，干旱让草地枯黄，高温让树木提前落叶，降雨让农田重焕生机。但天气和地面之间的关系并不是一个简单的公式。同样的干旱，落在土壤肥沃、地下水充足的地块上，和落在沙质贫瘠的土地上，造成的损害可以天差地别。偏偏土壤湿度、地下水位这些"隐藏变量"是卫星看不到的，它们潜伏在地表之下，悄悄左右着地面对天气变化的反应。

正因为存在这些看不见的变量，即便输入完全相同的天气条件，未来的地面状态也可能有好几种不同的走向。这意味着一个诚实的预测系统不应该给出一个斩钉截铁的答案，而应该给出一个"可能性分布"——某种结果最有可能，另一些结果也有一定概率，最极端的情况发生概率最低，但也不能排除。这就是研究团队强调"概率性预测"的根本原因。

在EO-WM出现之前，主流的预测方法大体分成两类。一类是确定性模型，比如Earthformer这样的时空变换器，它们把所有输入都处理完之后，给你一个确切的预测结果，就像天气预报直接告诉你"明天气温23度"，而不是告诉你"有六成概率在20到26度之间"。这类模型精度不错，但它把所有不确定性都压扁了，强迫自己给出一个平均化的答案，遇到极端事件时往往会系统性地低估变化幅度。另一类是基于扩散模型的生成式方法，理论上可以生成多种可能的未来，但这类方法通常把天气变量当作一个普通的输入信号，没有区分"正常季节性天气"和"异常极端天气"的本质差异，导致模型对极端气候事件的感知能力有限。

EO-WM的突破，就在于它同时解决了这两个问题：既保留了概率性预测的能力，又专门为天气条件的物理结构设计了一套更聪明的处理方式。

二、把天气"拆解"成三层信号

EO-WM最核心的技术创新，是一套叫做"物理信息条件框架"的天气处理方法。这套方法的思路，可以用一个厨师品尝食物的场景来理解。

一位经验丰富的厨师尝一口汤，不会只说"这碗汤味道是X"。他会分层品味：这碗汤的基础底味如何（猪骨汤底）？今天比平时咸了还是淡了（异常偏差）？如果这种偏咸的状态已经持续了好几天，那锅里的盐分已经积累到什么程度了（累积效应）？这三个层面加在一起，才构成对这碗汤"现状"的完整理解。

EO-WM对天气的处理方式与此完全对应。研究团队把天气信号拆解成三个层次，分别通过不同的通道注入模型，让模型对每一层的物理含义都有清晰的感知。

第一层是"气候基线"，也就是某个地方在某个月份的正常天气应该是什么样的。研究团队为数据集中的每一个地理区块、每一个月份，预先计算了一个长期平均天气值。比如法国中部七月的平均气温大约是多少、平均降水量大约是多少，这些都是有规律可循的季节性背景。这一层信号的作用，是告诉模型"现在是什么季节、这个地方通常处于什么气候状态"，属于稳定的背景知识，只需要注入模型一次。

第二层是"天气异常"，也就是实际天气与气候基线的偏差。如果七月的实际气温比历史平均值高出5度，这5度的偏差就是一个显著的异常信号，意味着正在经历比正常年份更炎热的夏天。这一层信号保留了完整的空间分布信息，因为不同地点的异常程度可能差别很大，而且这一层信号会随时间不断更新，持续为模型提供"当前天气与正常状态有多大偏差"的实时信息。

第三层是"累积物理压力"，这是整套方案中最有独创性的部分。研究团队意识到，植被对干旱或高温的反应，不是一个即时的开关，而是一个积累过程。连续三天气温偏高，植物可能只是有点蔫；但连续三十天都在高温下煎熬，同时雨水又比正常年份少了一半，植物就可能彻底枯萎甚至死亡。用厨师的比喻说，这就像一锅持续加热的水——每一分钟单独看都没什么大事，但热量是在不断积累的，到了某个临界点水就沸腾了。

具体来说，研究团队定义了三种累积压力指标。热压力是正温度异常的累计值，只统计气温偏高的天数，气温偏低的天对热压力没有贡献（使用了一个数学上的ReLU操作来实现这个"单向累积"效果）。水分亏缺是负降水异常的累计值，只统计比正常年份干燥的天数。复合压力则是热压力乘以水分亏缺，专门捕捉"又热又干"这种双重打击同时发生的情况，因为高温和干旱叠加在一起对植被的破坏力远超二者简单相加。

这三种累积压力指标经过标准化处理之后，被转化为模型可以理解的特征向量，与天气异常信号一起注入到预测系统的空间条件通道中。这样一来，模型不仅知道"现在天气有多异常"，还知道"这种异常已经持续了多久、累积了多大的破坏力"，从而能够更准确地预测植被响应。

三、这个预测系统的"大脑"是怎么工作的

了解了天气信号的处理方式，再来看看EO-WM整体的架构设计，这个部分可以理解为整套系统的"大脑结构"。

EO-WM建立在一种叫做"潜在扩散模型"的技术框架上。扩散模型是近几年在AI图像生成领域大放异彩的技术，它的工作原理类似于从噪声中逐步"雕刻"出图像——先随机生成一团杂乱无章的噪声，然后一步步去掉不该有的部分，最终雕刻出一张清晰的图像。"潜在"的意思是，这个过程不在原始像素空间进行，而是在一个经过压缩的"潜在空间"里进行，这样既提高了计算效率，又保留了图像的关键信息。

支撑这套系统运作的第一个组件是EO-VAE，一个专门为地球观测数据定制的变分自编码器。它负责把多光谱卫星图像（包含蓝、绿、红、近红外四个波段）压缩成一种紧凑的潜在表示，就像把一首完整的乐谱压缩成一段简谱，保留核心旋律但去掉冗余细节。在使用时，它再把这个简谱还原成完整的乐谱。研究团队专门用EarthNet2021数据集对这个编码器进行了微调，让它更熟悉卫星图像的特殊统计特性。

核心生成模型是一个叫做MMDiT的多模态扩散变换器，采用了流匹配（flow matching）训练方式。流匹配是一种比传统扩散训练更高效的方式，可以理解为给"雕刻过程"找到了一条更直接的路径，减少了不必要的绕路。这个变换器有3.87亿个参数，从零开始在EarthNet2021训练集上训练。

模型的工作流程是这样的：首先，过去10帧已有的卫星图像被编码进视觉潜在特征中，形成观测上下文；同时，三种天气条件信号——气候基线特征、天气异常特征、累积压力特征——以及静态地形数据（数字高程模型）和时空元数据，分别通过各自的通道被注入模型；然后，模型在扩散过程中逐步生成未来20帧卫星图像的潜在表示；最后，EO-VAE解码器把潜在表示还原成真实的多光谱图像。

一个值得注意的工程细节是"深度条件注入"机制。通常的做法是只在模型最入口处注入条件信号，但研究团队发现，空间条件信号随着特征在变换器中一层层传递，到了深层就会逐渐"淡化"，模型对条件信号的感知越来越弱。为了解决这个问题，他们设计了一套周期性重注入机制：每经过四个双流注意力块，就把空间条件信号重新注入一次，用学习到的零初始化门控确保这个操作不会干扰已有的学习成果。这就像给一列火车在途中设置多个加油站，保证动力不会在漫长旅途中耗尽。

此外，这套系统还支持一种叫做"异常分类器无关引导"（CFG）的推理技巧。在训练时，研究团队会随机丢弃15%的天气异常信号，让模型学会在没有异常信息时单独依靠气候基线做预测。在推理时，通过比较"有异常信号"和"无异常信号"两种预测的差异，然后按照一个放大系数把这个差异放大，就可以让模型对极端天气事件更加敏感。这个机制为用户提供了一个调节旋钮：想要更激进地预测极端事件影响，就调大放大系数；想要更保守的预测，就调小。

四、打造两把专门的"测量尺"

评测一个地球观测预测模型，如果只看图像画得像不像，就好比评判一位医生的水平只看他的字写得漂不漂亮——这个指标不是毫无意义，但完全抓不住核心。研究团队认为，对于一个以天气为驱动信号的世界模型，最关键的问题是：当天气变化的时候，模型给出的预测结果有没有对应地朝正确方向变化？

为了回答这个问题，研究团队专门设计了两套全新的诊断性基准测试，都建立在已有的EarthNet2021数据集基础上，但聚焦于标准评测完全忽视的两个能力维度。

第一套叫做"极端夏季基准"。这套测试利用了2018年欧洲的真实热浪和干旱事件的卫星数据，这是近几十年来中欧地区最严重的复合气候事件之一，受影响的法国和德国部分地区植被遭受了严重损害。研究团队从EarthNet2021的极端测试集中筛选出1440个精心挑选的30帧窗口，每个窗口的设计都确保了一件事：前10帧（观测上下文）显示的是健康的植被状态，而后20帧（待预测部分）恰好覆盖植被开始显著衰退的时间段。

筛选过程非常严格。首先对每个样本的完整NDVI时序曲线进行平滑分析，找到植被开始从健康转向衰退的转折点，然后把30帧窗口定位在这个转折点附近，确保模型看到的是"正在发生变化前的最后10帧"，需要预测的是"变化发生后的20帧"。之后还需要验证：目标期内确实有至少两帧连续图像、至少两帧图像显示NDVI显著低于背景基线，且云层遮挡不能太严重。

通过这套筛选流程，研究团队得到了1440个经过认证的"极端事件窗口"，并按照事件严重程度分成低、中、高三档。对这些窗口的评测重点有两个：一是"谷值NDVI平均误差"（TN-MAE），测量模型预测的NDVI最低值与真实最低值之差；二是"下降幅度误差"（DAE），测量模型预测的NDVI从基准到谷底的跌幅与真实跌幅之差。这两个指标直接衡量模型有没有预测到"植被枯死到什么程度"，而不仅仅是画面像不像。

第二套叫做"季节匹配对基准"。这套测试的设计思路更加巧妙，灵感来自于一个科学实验的经典设计——控制变量。研究团队从EarthNet2021的季节性测试集中，找出来自同一个地理位置、同一个季节，但来自不同年份的卫星序列，把它们两两配对，形成422个"配对组"。

每一对序列的特点是：地点相同（消除地理差异）、季节相同（消除物候差异）、观测初始状态相近（通过严格的初始状态匹配筛选），唯一的不同是它们经历的天气条件。比如同样是某块农田在7月的观测，2017年那个夏天凉爽多雨，2019年那个夏天热浪滚滚。那么给模型同样的初始状态，如果输入2017年的天气，预测结果应该显示更健康的植被；如果输入2019年的天气，预测结果应该显示更差的植被。

这套测试聚焦于三个指标：散度再现比（DRR）衡量模型预测的两条时序曲线之间的分离程度与真实分离程度的比值，等于1最理想，小于1说明模型低估了天气差异的影响，大于1说明模型夸大了天气差异的影响；方向命中率（DHR）衡量模型在每个时间点预测的谁高谁低的方向与现实是否吻合；配对散度相关性（PDC）则衡量在所有422对样本中，那些真实世界里差异更大的配对，模型是否也预测出了更大的差异。这三个指标分别测量"量级"、"方向"、"排序"三个维度的天气响应保真度，共同构成一幅完整的评测图景。

五、实验结果：数字背后的故事

研究团队用这两套新基准，以及传统的标准指标，对多个模型进行了系统对比。

在极端夏季基准上，对比结果揭示了一个非常清晰的规律。以Earthformer为代表的确定性模型，在整体图像重建质量（ENS分数）上表现不错，在低严重程度事件上误差也还可以，但随着事件严重程度升高，它预测的下降幅度误差越来越大——高严重程度事件的DAE高达0.3084，比低严重程度的0.2227高出了近40%。这说明确定性模型面对极端情况时，会系统性地给出过于保守的预测，把大灾难预测成小问题。用医生诊断的比喻说，这就像一位医生面对重症患者，总是倾向于给出"轻度不适，多喝热水"的诊断。

概率性的生成模型则展示出了不同的特质。Wan2.1借助强大的预训练视频生成先验，在图像质量上相当有竞争力，但在方向性预测和量级准确性上仍有缺陷，说明通用视频生成能力并不自动转化为地球观测预测能力。EO-WM在极端事件的谷值预测（TN-MAE）上，在低、中、高三个严重程度档次上都取得了最好的成绩，分别是0.1266、0.1296和0.1281；在下降幅度误差（DAE）上，高严重程度档次的成绩0.2372也明显优于所有对比模型。

在季节匹配对基准上，各模型之间的差距更加鲜明。大多数确定性模型的DHR（方向命中率）只在0.49到0.56之间徘徊，和随机猜测相比没有本质的优势，这说明它们的预测结果对天气条件的变化基本没有系统性的响应。Earthformer相对较好，DHR达到0.5551，但PDC（排序相关性）只有0.1814。EO-WM的DHR达到0.6522，PDC达到0.2942，均为所有模型中最高。

研究团队还进行了一组消融实验，逐步添加物理信息条件框架的各个组件来测试每个组件的贡献。结果显示，单纯使用原始天气数据作为输入的对照模型，DAE为0.2459，DHR为0.6127。加入气候-异常分解之后，DAE改善到0.2367，DHR提升到0.6247——说明把正常季节性天气和真正的异常信号分开处理，确实让模型更好地感知到了偏离正常状态的天气。进一步加入累积物理压力之后，DAE继续改善到0.2330，DHR提升到0.6522——这验证了"不只是今天多热，还要看热了多少天"这个物理直觉在预测植被响应方面的重要性。

在推理策略的实验上，研究团队发现增加集成样本数量（从单次预测到5次取平均）能明显改善像素级的重建质量，但会略微降低配对散度相关性，因为取平均值会把不同样本间的个性差异给磨平。调大异常CFG引导系数可以让模型对极端天气更敏感，DRR（散度再现比）随着引导系数增大会逐渐接近理想值1.0，但过高的引导系数会破坏图像质量。这意味着不同的下游应用可以根据自己的需求灵活调整：如果最关心的是极端事件预警，可以适当调大引导系数；如果最关心的是图像的整体视觉质量，就保持默认的无引导设置。

诊断可视化进一步生动地展示了这些数字背后的差异。在预测下降幅度与真实下降幅度的散点图中，EO-WM的散点拟合线斜率最陡，DRA（下降再现准确率）达到0.551，而Earthformer只有0.469，Wan2.1为0.522——更陡的斜率意味着模型预测的严重程度与真实严重程度更接近，而不是系统性地低估。在极端事件检测率的对比中，两个生成式模型都远超确定性的Earthformer，尤其在低中严重程度档次上，差距尤为显著——Earthformer在低严重程度事件的检测率只有约0.40，而EO-WM接近0.83，这意味着概率性生成模型能捕捉到确定性模型完全忽视的早期微弱信号。在配对轨迹可视化中，EO-WM能够更一致地保持两条轨迹曲线之间的相对顺序和分离程度，而其他模型的两条预测曲线经常出现交叉或距离严重失真的情况。

六、这套系统的边界与未来

任何诚实的研究都必须正视自身的局限。研究团队在论文中明确指出，EO-WM目前的设计是针对"季节性时间窗口"的预测，也就是几个月的尺度。如果想把这套方法扩展到多年甚至十年以上的长期预测，会遇到一系列新挑战：需要处理数百帧卫星图像，误差会随时间累积放大，气候的长期趋势变化也会让历史气候基线逐渐失效。

此外，还有一些关键的"隐藏变量"问题始终无法通过卫星观测直接解决。土壤湿度、地下水位、植被品种分布、灌溉情况——这些都是影响地面对天气响应的重要因素，却无法从卫星图像里直接读取。研究团队建议，未来可以考虑把地面气象站的测量数据与卫星数据结合起来，把更多"不可见的隐藏状态"变成已知条件，从而进一步提升预测精度。

在更广泛的应用场景上，这套系统的潜力是清晰的：生态系统健康监测、农业产量预测、气候风险评估都可以从中受益。与此同时，研究团队也提醒，这类预测技术一旦被过度依赖，可能在农业保险理赔、灾害应急响应等高风险决策中造成错误判断，需要审慎使用。

说到底，EO-WM这项研究真正的价值不只在于它的预测精度有多高，更在于它提出了一个更正确的问题框架。过去的方法问的是"卫星图像的下一帧会长什么样"，而EO-WM问的是"在这种天气条件下，这片土地最有可能经历什么变化"。这两个问题看似相似，本质上却代表了完全不同的思维方式——前者是图像生成问题，后者才是真正的物理世界建模问题。

对于关心气候变化、农业安全或生态保护的普通人来说，这项研究意味着未来的卫星数据分析系统可能真正学会"看天说话"——不只是看今天的天气，还要理解天气的历史积累，从而更准确地预警植被衰退、干旱蔓延和生态系统的潜在危机。有兴趣深入了解这套系统的技术细节的读者，可以通过arXiv编号2606.27277查阅完整论文。

Q&A

Q1：EO-WM的"累积物理压力"指标和普通天气预报数据有什么区别？

A：普通天气预报数据记录的是某一天的气温、降水等即时数值，而EO-WM的累积物理压力指标是把这些即时数据中"超出正常范围"的部分按时间累加起来。比如热压力会把连续多天比正常偏高的气温全部叠加，反映出植被已经承受了多少持续的热量压力。这个区别很关键，因为植被响应干旱或高温往往是一个积累过程，而不是单日极值触发的即时反应。

Q2：季节匹配对基准测试为什么要配对同一地点不同年份的数据？

A：这套测试的核心目的是检验模型有没有真正学会"天气导致地面变化"这个因果关系。通过固定地理位置和季节、只改变年份（从而改变天气），就像科学实验中控制其他所有变量、只改变一个自变量一样。如果模型真的理解了天气驱动，那么给它输入一个炎热干燥年份的天气，预测结果就应该比输入凉爽湿润年份的天气更差。这套测试直接检验这个预期是否成立，比单纯看图像像不像更能揭示模型的真实能力。

Q3：EO-WM的气候基线和天气异常是如何分离计算的？

A：研究团队对数据集中的每个地理区块、每个日历月份，预先计算了该位置该月份的长期平均天气值（包含气温、降水等五个气象变量），这就是气候基线。实际观测到的天气值减去气候基线，得到的差值就是天气异常。气候基线作为稳定的季节性背景知识只注入模型一次，而天气异常作为动态偏差信号随时间步持续更新，二者通过不同的条件通道分别注入模型，让模型能区分"这是正常的夏天热"还是"今年夏天热得不正常"。