凌晨三点的顿悟：无人机在数据荒漠里怎么认路|gps|传感器|凌晨三点|无人机|编码器|飞行器

凌晨三点，我对着满屏锯齿状的遥测日志发呆。城市空中交通（UAM）无人机的数据烂得像瑞士奶酪——时间戳缺失40%到70%，传感器采样毫无规律，GPS信号在高楼峡谷里时断时续。任务是给电动垂直起降飞行器（eVTOL）做路径规划，但传统强化学习需要密集标注的轨迹数据，监督学习需要真值路线，这两样都不存在。

重读一篇关于视频序列对比学习的论文时，一个念头突然击中我：能不能不靠任何标签，直接从时间模式里找规律？无人机的GPS、惯性测量单元（IMU）、阵风数据、电池放电曲线——这些传感器流本身就藏着隐含结构。关键问题是设计一个自监督目标，让神经网络从碎片数据里学会城市空域的"节奏"。

UAM的数据稀疏是结构性困境。与每天产生TB级标注数据的自动驾驶汽车不同，UAM飞行器稀少、单次飞行仅10到30分钟、每次任务都是高风险异常事件。我分析过旧金山上空的实飞遥测：GPS因城市峡谷遮挡导致40%到70%时间戳缺失；传感器采样率混乱——GPS 1赫兹，IMU 100赫兹，且未同步；强化学习几乎不可行，一架无人机可能整趟任务只收到一次"安全着陆"的奖励信号。

传统方法——长短期记忆网络（LSTM）、Transformer、图神经网络——都需要密集规则的时间序列。但自监督学习（SSL）提供了出路。核心思路是设计前置任务，迫使模型在无标签条件下捕捉时间动态。研究TimeSformer、VideoMAE等视频理解模型时，我意识到掩码重建可以适配到不规则时间序列。关键洞察在于：与其预测未来值（这在数据缺口下必然失败），不如学习时间嵌入，使其对采样不规则性具有不变性。模型需要理解底层过程——风场模式、交通拥堵周期、电池衰减曲线——而非仅仅拟合观测数据。

我设计了三组件系统：时序编码器、基于掩码自编码器（MAE）的变体，处理不规则采样；对比学习模块，拉近相似时间窗口的嵌入、推远不相似的；路由策略网络，将学到的表示用于路径规划。编码器架构刻意保持简洁：输入层处理多速率传感器融合，掩码策略随机遮蔽时间步而非空间补丁（适配一维时序），重建目标恢复被掩码的传感器读数及其时间关系。

最反直觉的发现是：数据越稀疏，自监督预训练的效果反而越显著。在密集数据集上，监督基线表现更好；但当缺失率超过50%，SSTPM开始拉开差距。原因在于，掩码重建任务本质上教会模型对缺失数据鲁棒——这正是UAM场景的核心需求。