黄仁勋亲测英伟达辅助驾驶系统Alpamayo，全程无接管|特斯拉|自动驾驶系统|黄仁勋

IT之家 3 月 11 日消息，据 The Verge 报道，大约每隔半年，英伟达汽车事业部副总裁吴新宙（Xinzhou Wu）都会邀请公司首席执行官黄仁勋乘坐一辆搭载了该公司脱手自动驾驶系统的汽车出行，但前提是，吴新宙对这套系统的驾驶能力有十足把握。

最近，两人乘坐一辆搭载 MB.Drive Assist Pro 的奔驰 CLA 轿车，从加利福尼亚州伍德赛德开往旧金山市中心。这套由英伟达参与开发的脱手驾驶辅助系统，与特斯拉的 FSD 功能类似。尽管当时交通十分拥堵，车内气氛却很轻松。

乘车视频显示，黄仁勋对吴新宙说：“切入自动驾驶模式时告诉我一声，我就不用那么担心安全了。”

IT之家注意到，在这段 22 分钟的视频里，这辆奔驰载着黄仁勋与吴新宙，顺利应对了一系列日常路况障碍：施工路段、并排违停车辆、以及被橙色路锥挤出来的狭窄车道。英伟达这套系统表现相当出色，不过视频经过剪辑，并非实时呈现。（英伟达发言人杰西卡 · 苏亚雷斯后来说，全程没有出现人工接管。）

在幕后深耕多年之后，英伟达正试图在自动驾驶领域抢占更显眼的领导地位。该公司不仅为特斯拉等企业提供芯片，还向奔驰、捷豹路虎、Lucid 等合作伙伴输出自研的 AI 驾驶功能。今年早些时候的国际消费电子展（CES）上，黄仁勋发布了 Alpamayo—— 一套包含 AI 模型、仿真蓝图和数据集的解决方案，可让车辆实现 L4 级自动驾驶，即在特定条件下完全自主行驶。黄仁勋将这一发布称为“实体 AI 的 ChatGPT 时刻”。

与吴新宙同车时，黄仁勋少了几分高调，多了几分深思，但对这项技术的前景依旧无比乐观。

“当然，挑战在于，Alpamayo 尽管非常智能，能够对环境做出推理判断，但我们并不知道它做不到什么。”他说，“这就是挑战所在，也是我们的传统技术栈依旧至关重要的原因。”

黄仁勋称，英伟达的自动驾驶方案是“独一无二”的，因为它将端到端 AI 模型与传统人工工程化的“经典”技术栈结合在了一起。他认为，纯端到端模型很难做安全验证；而传统技术栈遵循成熟的工程规范与流程，更容易验证某些行为是否足够安全。通过两种方式结合，英伟达的系统既能拥有接近人类的驾驶风格，又能保留基于道路规则的安全框架。

黄仁勋所谓“行业独一份”的说法并不完全站得住脚：其他自动驾驶企业也在使用端到端神经网络，同时搭配明确的安全规则来约束车辆行为。但毋庸置疑的是，驾驶更像人、没那么机械僵硬的端到端学习正变得越来越流行。Waymo 采用混合系统，特斯拉则完全依赖端到端神经网络。

吴新宙在采访中表示，端到端模型在处理减速带、变道等场景时更自然，不会显得机械僵硬。

“这就是为什么说这是真正的 ChatGPT 时刻。”他说，“只有当你的车开得非常自信时，用户才会更愿意去用它。”

当被问及如何看待英伟达方案与特斯拉完全自动驾驶（FSD）的对比时，吴新宙没有直接评价特斯拉的安全记录，但解释说，英伟达的优势在于多传感器融合：包括摄像头、雷达、超声波传感器，高配版本还搭载激光雷达（LiDAR）。他表示，英伟达认为，感知技术的冗余性与多样性，对处理极端场景、实现更高安全等级至关重要。

额外的传感器意味着更高的成本。尤其是激光雷达的加入，似乎意味着英伟达最安全的系统只会面向富裕的奔驰车主。但吴新宙认为，英伟达垂直整合的方案，能以尽可能低的成本实现所需的安全性能。

英伟达 DRIVE Hyperion 平台支持多种配置：基础版采用更简单、性价比更高的传感器方案，主要依赖摄像头与雷达。过去十年，大规模量产让这类传感器成本大幅下降，超声波传感器更是极为便宜。若要实现更高等级自动驾驶，平台可加装激光雷达。吴新宙认为，随着激光雷达成本下降，售价在 4 万～5 万美元区间的车型，未来完全可以搭载高级自动驾驶所需的全套传感器。

特斯拉凭借庞大的用户车队拥有数十亿英里实车驾驶数据；Waymo 在公共道路上累积了近 2 亿英里完全自动驾驶里程。英伟达要如何追赶？

“真正的基础设施是仿真。”吴新宙说。英伟达主要通过两条路径实现：

一是神经重建（NuRec），工程师利用从车辆采集的传感器数据，复现真实驾驶场景；

二是数据增强，在重建场景中修改元素，探索不同结果，从而测试自动驾驶系统在细微变化环境下的表现，并找出原始数据集中罕见的极端案例。

“我们可以让行人出现得更快、更慢，出现在不同位置。”他说，“这就是我们所说的数据集扩充。”

英伟达从合作伙伴处获取行车记录仪视频，用于仿真训练；同时也复现 Waymo 事故中的极端场景（如停电），训练系统如何避免堵塞路口。

但其最终目标，是打造一套具备推理能力的系统，从根源上避开这些极端陷阱，从而不再依赖海量实车数据。吴新宙的团队正在研发所谓的视觉-语言-动作模型（Vision Language Action），将这一理念落地。这类模型将视觉感知、语言理解与物理动作整合在统一架构中，依托已在互联网级数据上训练好的大基础模型。吴新宙将其比作驾校学习。

“我们教孩子开车时，他们先学交规，再上路练 20 个小时。”吴新宙说，“通常一开始开得就不差，当然，经验需要慢慢积累。最终我们希望模型也能这样：未来，只靠一本交规和 20 小时训练数据，它就能学会开车。”