技术跃迁！非自回归生成发力，自动驾驶规划更安全更高效

流年顛簸

2025-12-28 00:52 ·四川

复旦引望联手搞出大动作，一款叫WAM-Diff的框架，直接给自动驾驶的核心规划逻辑来了次大升级。

现在主流的端到端自动驾驶都在往“大一统”方向靠，但老问题一直没解决，这次WAM-Diff算是精准踩中了痛点。

现在很多自动驾驶的规划模型，都用的是自回归生成模式。

简单说，就是像写句子一样从左到右按顺序算动作。这跟咱们人类开车的思路完全对不上。

咱们老司机碰到复杂路况，肯定是先想清楚最终要去哪，比如要进匝道、要避让行人，再倒着推现在该踩油门还是打方向。

那些自回归模型可不管这些，只埋头算下一步动作。

更麻烦的是，这些模型大多靠模仿人类驾驶数据学习，很容易陷入“平均司机”的陷阱。

意思就是只会中规中矩开车，该激进避让的时候不敢动，该平稳跟车的时候又反应迟钝。

之前看不少自动驾驶实测，碰到突发情况就掉链子，多半就是这个原因。

WAM-Diff的出现，就是冲着解决这些问题来的。

本来想是不是单纯堆参数就能解决，后来发现根本不行，得从根上改生成逻辑。

WAM-Diff最核心的改变，是把离散掩码扩散模型用在了自动驾驶规划上。

首先它搞了个混合离散动作分词技术，把连续的行车轨迹坐标，精准转换成了离散的“指令块”，误差能控制在很小的范围里。

这些“指令块”还能和“左转”“避让”这类语义指令放在一起理解，相当于让模型既能看懂路，又能听懂指令。

更有意思的是它的解码策略。研发团队试了三种生成顺序，最后发现反因果序最管用。

就是先确定远处的终点，再倒着规划近处的动作，这完全复刻了人类“以终为始”的驾驶直觉。

如此看来，这种反常规的思路，反而让行车轨迹更连贯、更安全。

为了应对不同路况，WAM-Diff还加了MoE混合专家架构。

简单说就是模型里藏了64个“专项司机”，碰到十字路口、高速路这些不同场景，会自动激活最擅长的那个。

同时搭配的强化学习算法，还能从整个行车轨迹的角度做优化，不光看动作像不像人，更要保证安全、合规、舒服。

这款框架的实力，在NAVSIM权威评测里得到了验证。

在两个版本的测试中，都拿到了顶尖成绩，比现在不少主流模型表现都好。

尤其是在加了交通规则和舒适性要求的测试里，优势更明显。

这些成绩背后的意义不一般。

它证明了非自回归生成范式在自动驾驶里是可行的，也打破了大家对“模型越复杂越好”的固有认知。

WAM-Diff没靠堆参数，而是靠优化生成逻辑和架构设计，就解决了行业痛点。

对行业来说，这可能是通往L4级自动驾驶的关键一步。

现在很多自动驾驶方案卡在复杂场景的决策上，WAM-Diff提供了新的思路。

它让模型不光能“学会开车”，还能“理解为什么这么开”，可解释性和安全性都提上去了。

WAM-Diff的出现，算是给端到端自动驾驶的发展指了个新方向。

未来要是能结合车路云一体化这些技术，说不定能更快推动高等级自动驾驶的商业化落地。

毫无疑问，这种从底层逻辑革新的技术，远比单纯的参数升级更有价值。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴