400万条驾驶演示、3万小时连续采集、23类真实场景——即便是这样的数据量,也没能让端到端自动驾驶模型的闭环表现稳定增长。这是深度强化学习团队今年投给ICRA 2026的一组研究成果,他们用三篇论文,围绕一个核心困惑展开了系统拆解:为什么在自动驾驶这条路上,砸数据、提速度、甚至用上人类的“接管教学”,问题仍然层出不穷?
这件事的起点,来自团队对“数据规模定律”的执念。过去两年,大语言模型靠着指数级增长的数据,一再验证性能平滑攀升的幂律曲线,于是自动驾驶社区自然想问:同样的道理,能不能套在方向盘和踏板上?为此,课题组专门构建了一个庞大的真实驾驶数据集,不仅包含常规的城市道路、高速巡航,还塞进了长尾的夜间暴雨、无保护左转、行人突然横穿等棘手片段。他们用模仿学习的方式,在不同量级的数据子集上反复训练,然后分别用开环指标和闭环仿真进行双线评分。
开环测试的结果完全符合预期。模型在规划轨迹的误差、碰撞率等指标上,确实与数据量呈现稳定的幂律关系——数据每翻一倍,性能就稳稳涨一截。然而,一旦把评测搬到更强调连续决策的闭环环境里,这条优雅的直线立刻就垮了。车辆会在某些场景下反复犹豫、顿挫,甚至因为一次迟到的变道而引发连环风险,而这些失误,恰恰发生在数据量已经“绝对庞大”的情况下。团队由此点出了一个让整个行业困惑的真相:自动驾驶的核心瓶颈,已经从“有没有数据”悄悄转变为“数据里到底有没有覆盖足够多的危险边缘”。
他们发现,仅占训练集极小比例的长尾场景数据,却几乎决定了系统在极端情况下的存活率。只要在这些罕见样本上稍微“加餐”,车辆应对无信号路口博弈、公交港湾汇入等复杂任务的能力就会肉眼可见地增强。更让团队兴奋的是,如果数据扩展时采用结构化、有层次的策略,而不是简单堆砌里程数,模型甚至可以表现出“组合泛化”的苗头——也就是说,它在训练中从未见过的“新路段形态+新交通参与者行为”组合,竟然也能给出合理的应对。虽然这只是研究阶段的现象,但已经足够让团队重新思考自动驾驶数据闭环的底层逻辑:比起无止境地扩大采集车队,如何系统性识别并补充“关键脆弱场景”,或许才是解锁安全上限的真正钥匙。
数据的问题还没完全解决,团队的另一组人又把目光转向了规划环节的实时性难题。他们很清楚,即便模型在离线评测里再漂亮,一旦上车,如果不能在毫秒级的时间内输出轨迹,一切都是纸上谈兵。而目前主流的生成式规划方法,虽然擅长输出多条备选路径,却因为需要多步迭代采样,推理延迟始终居高不下,这在需要紧急制动或者快速穿行的动态路口时,往往就是事故的起点。
于是,课题组提出了一个名为ConsistencyPlanner的规划框架,核心思路其实很简洁:能不能让轨迹生成的过程,就像扩散模型“一步到位”生成图像那样,在极短的时间内直接给出多种可行方案?他们选中的技术载体,是近来在图像和语音生成领域突起的“一致性模型”(Consistency Model)。这种模型的特性在于,可以把原本需要几十步、上百步的采样过程,压缩到几步甚至单步,而生成质量并不会有级联性的折损。团队在此基础上,设计了一套多模态轨迹生成机制,能够在极低的计算开销下,一次性探索包括保守跟随、果断超车、紧急避让等在内的不同驾驶意图,并在规划器内部并行评判。
当然,手快不等于手稳。为了让快速生成的轨迹真正“靠谱”,团队还专门设计了一个注意力增强的异构特征融合解码器。简单来说,它可以把高精地图的拓扑信息、周围车辆的历史轨迹、交通信号灯的时序状态,以及自身车辆的运动指令,像拼图一样动态整合成一套高度结构化的场景表征。这种表征没有简单地做拼接或平均,而是让模型自动学会在不同地形和交通流密度下该重点关注哪些信息——比如在混乱的十字路口优先追踪那个犹豫的左转车,而在畅通的快速路上更侧重速度保持和车道对准。在Waymax仿真平台的对抗性测试中,ConsistencyPlanner展示出了让团队自己都略感意外的表现:它不仅追平甚至超越了现有方法的安全得分,更关键的是,在交通参与者行为突变、需要瞬间切换策略的动态场景里,它的稳定性断层般地甩开了那些慢一拍的生成式对手。
不过,团队同样在论文里坦诚,ConsistencyPlanner的探索仅仅是个开始。目前它还依赖仿真环境的理想化传感器,面对现实世界中丢帧、遮挡、幽灵刹车等意外,这一类快速采样模型会不会因为过于“自信”而输出错误但速度极快的轨迹,依然是未解之题。但至少,它在证明一件事:自动驾驶的实时规划,不需要在“多样化”和“低延迟”之间做痛苦取舍,一致性模型很可能就是撬动这块跷跷板的支点。
数据规律探明了,实时规划有了新路径,团队面对的第三个问题,则更贴近实际部署中的狼狈时刻——车子已经搞砸了,人类踩下刹车或者一把抢过方向盘,这段“救命”的数据,除了甩锅还能干什么?按照常规的模仿学习流程,这种引发人工接管甚至系统退出的尴尬片段,通常会被当作脏数据丢弃,或者只被简单记录为一次失败案例。但团队反问了自己一句:如果把这些专家在极端紧急状态下的纠正动作,看作比常规驾驶更高价值的教学素材呢?
基于这个直白的困惑,他们提出了一套名为TakeAD的后训练优化框架。它的运作逻辑和传统的“把正常数据反复练”截然不同,分成两个接力阶段。第一步,是建立一套系统性的专家接管数据采集管道:在模拟器或者测试车运行过程中,一旦车辆出现剧烈卡顿、即将碰撞或者偏离车道超过阈值,就会自动触发干预,由人类驾驶员接管并完成恢复操作,而这段从危机前奏到恢复到安全状态的完整轨迹,连同传感器快照一起被精细保存。第二步,才是真正的“学习如何被救”。
在这个阶段,TakeAD并没有粗暴地用接管数据重新训练一个新模型,而是选择了一种更细腻的混合策略。它首先运用迭代式的Dataset Aggregation,也就是DAgger算法,让模型直接在半监督的节奏下观测和学习人类是如何把车从失控边缘拉回来的。每一次训练迭代后,模型重新上路测试,又会产生新的脆弱片段,再次被专家接管并补充进数据集。这样几轮下来,模型逐渐习得一种类似肌肉记忆的恢复本能,比如在高速弯道误判后如何轻柔回正,而不是猛打方向引发二次危险。然而,团队很快发现,只学会模仿恢复动作还不够——有些人类驾驶员的偏好是趋向保守减速,有些则是寻找间隙迅速并线,模型如果不能理解这种偏好,就可能在不同的危险场景间摇摆不定。
为了解决这一点,框架在第二级引入了直接偏好优化(DPO),让模型拉开得分差距:对于同样一个危险前状态,专家的实际接管轨迹被标记为“优先”,而模型原本可能采取的笨拙或激进尝试则被标记为“不偏好”,通过对比学习的方式,让模型在概率分布上内化“更好的应对方式”。这种偏好对齐并非简单的奖赏加权,而是直接在策略层面进行微调,促使模型逐步向着更符合专家风险判断的方向收敛。在多轮交替训练之后,TakeAD在闭环Bench2Drive评测中的成绩开始说话:相较于纯模仿学习基线,车辆的碰撞率和接管频率双双显著下降,尤其是在之前最容易崩溃的无信号交叉口、复杂合流等场景,系统终于展现出了“先稳住,再通过”的耐心和能力。
这背后引出的深层启发是,自动驾驶系统的能力边界不仅取决于训练时喂进去多少“正常行驶的录像”,很大程度上也取决于如何消化那些“搞砸后的教诲”。团队在论文的讨论部分毫不避讳地点出,当前行业普遍把接管数据视为KPI中的负向指标,但如果能用偏好驱动的方式把它们转化为后训练燃料,每一起危险事件都可能变成加固系统薄弱环节的沙袋。当然,从仿真走向实车,这套框架还必须跨越数据分布偏移和在线部署延迟的鸿沟,但至少它已经为端到端系统的持续进化撕开了一个新的口子。
把三篇论文串在一起,能清晰看到这条线索:数据规模定律的失效,倒逼我们去理解场景覆盖质量的本质;实时规划对效率的苛刻要求,催生了生成式模型单步采样的新架构;而对手动接管数据的重新审视,又让“失败”获得了建设性的训练价值。深度强化学习团队的这一组工作,并没有宣称自己找到了终极答案,相反,每一篇论文的结尾都挂满了未解决的实验条件和假设。但也许这正是困惑与探索交织的正常模样——当所有人都认为端到端自动驾驶的下一程只是更多的数据、更多的算力时,这群人用扎实的评测和诚实的结论,把问题拉回到了那个老生常谈却被一再搁置的原点:对于自动驾驶这件事,我们到底在学什么,以及是否真的学会了。
在ICRA 2026这类机器人顶会上,有关深度强化学习的应用常常充满炫目的reward设计和复杂网络,而这三项研究却以一种近乎朴素的方式,把目光对准了数据分布、规划延迟和人类反馈这些基础得不能再基础的元素。团队没有在论文中给出一个“大一统”的框架,也没有试图用同一个模型同时解决三个问题。它们像三把并排摆放的手术刀,分别切开数据、规划和恢复这三个紧密缠绕的工程死结,提醒着所有同行:也许在追逐更优雅的数学表达之前,我们需要低头看看,那些让车辆在仿真器里崩溃绕圈的日常故障,根源究竟在哪里。
热门跟贴