自动驾驶领先者反向偷师，给人类司机建了个“行为碰撞假人”|反向偷师|机器人|系统故障|自动驾驶系统|自动驾驶领先者|驾驶员

当整个行业都在追求超越人类驾驶水平时，Waymo却做了一件看似倒退的事——他们在《自然》期刊上发表了一项研究，不是如何让自动驾驶更“像机器”，而是如何更精准地模拟一位谨慎、称职的人类驾驶员。这家Alphabet旗下的公司把这个系统命名为ReD（参照驾驶员模型），并把它比作一个行为版的碰撞测试假人，只是这个假人的任务是一开始就避免碰撞，而非撞了之后测量伤害。

这个出发点的反常识之处在于，人们通常认为自动驾驶的终极目标是消除人类失误，但Waymo安全负责人Mauricio Pena却给出了不同的视角：“评估自动驾驶安全性是多维度的，理解人类如何处理冲突是其中关键的一环。通过建立一个称职人类反应的参照模型，我们能帮助整个行业走向一套共享的、有科学基础的碰撞避免行为评估方法。”简而言之，他们要的不是取代人，而是拿一个高度模拟的人类驾驶标准，来给自家的机器人出租车当“考官”。

这套ReD模型的底层原理来自神经科学中的“主动推理”理论，其核心假设是人类大脑在持续地试图最小化意外。Waymo的团队基于此构建了一种计算框架，能够模拟一个谨慎且称职的驾驶员如何在行驶中不断更新自己的信念、处理对其他道路使用者意图的不确定性，并最终选择避碰动作，无论是制动、转向还是两者结合。与简单的反应式模型不同，ReD让系统有了类似人类的“预期”能力，即在演化的事态中动态修正判断，而不是等危险发生再响应。

为了让虚拟驾驶员的反应更贴近真实人类，Waymo在模型中融合了多项人类特有的感知和行为特征。其一是“逼近感知”，通过判断视野中某个物体尺寸的增长速度来评估威胁程度，这与人类依靠视觉经验判定“那个东西是不是正在很快靠近我”的机制高度吻合。其二是“交通规范过滤器”，它会剔除那些不符合守法驾驶习惯的动作选项，确保在出错时仍能生成一个合规的修正方案。还有一个细节是单脚驾驶的延迟模拟——模型在油门与刹车踏板之间人为加入0.2秒的时间差，这正是大多数人类驾驶员从加速切换为制动所需的那一瞬间，直接复刻了肉体反应的真实上限。

ReD还被赋予了一条许多驾驶员从父辈或教练那里接收过的忠告：预设会有情况发生。模型可以执行主动规避，把潜在风险化解在酿成冲突之前。Waymo团队解释，一名称职的驾驶员并不仅仅擅长在危机中脱困，更重要的是能够预见风险，从而根本不会陷入冲突。虚拟人类驾驶员正是用这种方式，不断输出“在这种情况下，一个人会怎么做”的参照基准，用来对比和校准真实测试中自动驾驶系统的行为。

这套参照体系不是Waymo闭门打造的理论玩具。他们与荷兰代尔夫特理工大学合作完成了这项研究，成果发表在《自然》杂志，已经经过同行评议的检验。Waymo还计划在与安全机构、监管方的协作中进一步完善这个模型，并为了加速这一进程，将ReD以学术非商业许可证开源。这等于公开邀请更多研究者一起讨论和打磨什么是“一个值得信赖的人类驾驶参考标准”，而不只是企业自己说了算。