打开网易新闻 查看精彩图片

复旦引望联手搞出大动作,一款叫WAM-Diff的框架,直接给自动驾驶的核心规划逻辑来了次大升级。

现在主流的端到端自动驾驶都在往“大一统”方向靠,但老问题一直没解决,这次WAM-Diff算是精准踩中了痛点。

打开网易新闻 查看精彩图片

现在很多自动驾驶的规划模型,都用的是自回归生成模式。

简单说,就是像写句子一样从左到右按顺序算动作。这跟咱们人类开车的思路完全对不上。

咱们老司机碰到复杂路况,肯定是先想清楚最终要去哪,比如要进匝道、要避让行人,再倒着推现在该踩油门还是打方向。

那些自回归模型可不管这些,只埋头算下一步动作。

打开网易新闻 查看精彩图片

更麻烦的是,这些模型大多靠模仿人类驾驶数据学习,很容易陷入“平均司机”的陷阱。

意思就是只会中规中矩开车,该激进避让的时候不敢动,该平稳跟车的时候又反应迟钝。

之前看不少自动驾驶实测,碰到突发情况就掉链子,多半就是这个原因。

WAM-Diff的出现,就是冲着解决这些问题来的。

打开网易新闻 查看精彩图片

本来想是不是单纯堆参数就能解决,后来发现根本不行,得从根上改生成逻辑。

WAM-Diff最核心的改变,是把离散掩码扩散模型用在了自动驾驶规划上。

首先它搞了个混合离散动作分词技术,把连续的行车轨迹坐标,精准转换成了离散的“指令块”,误差能控制在很小的范围里。

这些“指令块”还能和“左转”“避让”这类语义指令放在一起理解,相当于让模型既能看懂路,又能听懂指令。

打开网易新闻 查看精彩图片

更有意思的是它的解码策略。研发团队试了三种生成顺序,最后发现反因果序最管用。

就是先确定远处的终点,再倒着规划近处的动作,这完全复刻了人类“以终为始”的驾驶直觉。

如此看来,这种反常规的思路,反而让行车轨迹更连贯、更安全。

为了应对不同路况,WAM-Diff还加了MoE混合专家架构。

打开网易新闻 查看精彩图片

简单说就是模型里藏了64个“专项司机”,碰到十字路口、高速路这些不同场景,会自动激活最擅长的那个。

同时搭配的强化学习算法,还能从整个行车轨迹的角度做优化,不光看动作像不像人,更要保证安全、合规、舒服。

这款框架的实力,在NAVSIM权威评测里得到了验证。

打开网易新闻 查看精彩图片

在两个版本的测试中,都拿到了顶尖成绩,比现在不少主流模型表现都好。

尤其是在加了交通规则和舒适性要求的测试里,优势更明显。

这些成绩背后的意义不一般。

它证明了非自回归生成范式在自动驾驶里是可行的,也打破了大家对“模型越复杂越好”的固有认知。

打开网易新闻 查看精彩图片

WAM-Diff没靠堆参数,而是靠优化生成逻辑和架构设计,就解决了行业痛点。

对行业来说,这可能是通往L4级自动驾驶的关键一步。

现在很多自动驾驶方案卡在复杂场景的决策上,WAM-Diff提供了新的思路。

它让模型不光能“学会开车”,还能“理解为什么这么开”,可解释性和安全性都提上去了。

打开网易新闻 查看精彩图片

WAM-Diff的出现,算是给端到端自动驾驶的发展指了个新方向。

未来要是能结合车路云一体化这些技术,说不定能更快推动高等级自动驾驶的商业化落地。

毫无疑问,这种从底层逻辑革新的技术,远比单纯的参数升级更有价值。

打开网易新闻 查看精彩图片