打开网易新闻 查看精彩图片

追赶者的每一步都是取舍。

文丨郭瑞婵

编辑丨龚方毅

“今天行业里真正量产了一段式端到端(从传感器直接到驾驶行为的一体化模型)的车企和供应商,不到一只手的数量,” 长安汽车首席智驾官陶吉说,“我也感觉在公众脑海里,怎么都轮不到长安。”

下半年长安会量产这套智驾,在那之前,《晚点 Auto》分别在上海和重庆见到了陶吉,跟着他在重庆从下午试车到晚上 —— 这是他日常工作之一,拉着骨干一起,顺手在车上把会也开了。几次交流下来,和技术细节讨论得一样多的,是一个追赶者在有限条件下如何做出的一连串具体选择。

而那些取舍的背后,超越了一个纯技术负责人的职责范畴。

三年前,陶吉辞掉上一家公司的 CEO,拒掉了具身智能的创业融资,跑到了长安。当时几家主机厂发出邀请,他选长安的原因之一是:先一起做好智驾,再一起做具身智能。一年后长安将端到端列为智能化的未来战略方向,计划投入百亿资金用于研发,“这是长安历史上规模最大的战略投资项目之一”。

长安早年转做乘用车时从底特律请回一批工程师从头建设,专门设了一个 “专家服务办公室”,回国的专家嫌重庆屋外青蛙叫得睡不着,办公室就派人去抓。重视人才的传统延续到了今天。陶吉来长安第一天就有了签审权、预算,相当于一个小特区。

追赶者的每一步都是取舍。过去几年,由传统主机厂孵化的智驾自研团队大多走向收缩,长安的智驾布局虽早,但主要以规控为主,在端到端转型里不占优。陶吉刚加入时,长安没有可以让车识别路况的自研感知模型,500 人的团队里只有三十多人给模型做数据和开发工具,而自研端到端仅这个板块就需要数百人,整体至少达到千人规模。

国企招人薪资有限,还要兼顾内部公平。同时,智驾是系统工程,大批量招人后,不同背景的人才之间容易产生摩擦。陶吉在这件事上有教训。他加入长安前创办了 L4 卡车公司千挂科技,那段经历让他知道 “该强势就强势,该压制噪音就压制”。

他在长安发起 “AI 基石计划”,把大批校招生转到基建方向,并设定了 “1:4:N” 的人才比例,每个方向配 1 位能定大方向的 “明白人”、4 位与其同频并有过相关经验的 “聪明人”,再由他们带动 N 位 “执行人” 往前冲。3 年间,团队从 500 人扩充到 1500 人,他形容 “边开车边换轮子”。

陶吉 2013 年在百度做无人车时,团队里的人就在问,最聪明的人为什么都去大厂贴广告了?他说那时起就想把 AI 用到物理世界里,到现在也没变;中间放弃具身智能的创业,是因为具身智能的技术路径和产品形态都不清晰,需要大量资金长期投入,而自动驾驶仍然是实现物理 AI 最快的领域。

他推崇特斯拉,关注最前沿的技术和智驾排名,会主动带队向同行请教,但他也清楚长安的禀赋,并不追求做第一。“我不是一个容易被诱惑的人,” 他说。2025 年一季度末决定全力押注一段式端到端之前,陶吉让团队并行测试了一季度的一段式和两段式端到端,最后才选择基建要求更高但上限也更高的前者。对 VLA(视觉-语言-动作模型)的态度也一样,如果没有一家公司证明它的表现超过了端到端,长安不会盲目大规模投入。

这也是陶吉第一次做端到端,一下狂喜、一下狂悲,头发白了不少,但他说,只要方向没错,按正确的方法做事,做出一段式端到端是水到渠成,“可能早几个月或晚几个月,必定会往这个方向走。”

以下是《晚点 Auto》和陶吉的对话,经编辑:

一段式端到端没有捷径

晚点:传统主机厂自研智驾在一段时间里曾被判了 “死刑”,很少人相信你们能做出一段式端到端。

陶吉:今天行业里真正量产了一段式端到端的车企和供应商,不到一只手的数量,我也感觉在公众脑海里,怎么都轮不到长安。

早期传统主机厂做智驾,容易对技术和路径判断不足,要么走向赛马,要么在供应商和自研之间来回跳,都会带来研发上的问题:方向不正确,或者积累不能持续,最后半死不活。再一个是机制和组织问题,科技公司背景的人跟传统主机厂背景的人融合不了,团队里做模型的和做规则的融合不了,就会产生严重内耗。

这需要天时、地利与人和,得找到合适的人、授权,沿着一个正确的方向走、持续积累,看到逐步起来的过程,才能不断增强信心,不然坚持不住。

长安已经做得不错,但一度也很紧张,我们做端到端花了一年六七个月,中间面临很多 “效果到底行不行”“什么时候才能成” 的质疑,我们还有央国企的身份,上级单位的关注也会带来压力,得顶住。长安能做出来,我觉得值得在中国自动驾驶历史上标记一下。

晚点:23 年你加入长安时,智驾技术路线的端到端转向还不明显,你们怎么确定技术方向?

陶吉:最早 23 年底做了一个三年规划,当时特斯拉发布了 FSD V12,我们看到了端到端的趋势,但不能在一穷二白的情况下一步登天,要逐步先把感知的各种小模型一统,再把感知跟规控模型一统,往端到端走。

所以第一年先用上一代感知大模型加手写规控代码的方法,把高速 NOA(自动辅助导航驾驶)快速做出来,同步补一些工具链、基建能力。24 年下半年高速 NOA 量产之后,行业同步发生了变化,理想用端到端实现了弯道超车,我们深感不能再用老的范式来做城区 NOA,一定要直接进入端到端,所以在公司内部开始论证、立项。

我的立项材料写了两个月,因为立项很重要,端到端需要算力和数据,花销的大头是资源,人的占比反而小了,这些资源投入在央国企需要经过正式的流程。我们 24 年 10 月立项通过,虽然流程长,但我观察央国企有一个好处:一旦决定要做,momentum(动力)会非常强,决定了,就不会轻易再改,这对团队来讲是好事。

晚点:这些技术细节怎么解释给平常主要关注传统业务的高层听?

陶吉:他们不会关注具体的技术细节,充分授权,我只要负责把这事做成功。讨论要投多少资源比较难,那个时候行业也不明晰,有人说非常贵,特斯拉花了 1000 亿,国内头部可能每年花一、两百亿在做智驾,这里面有多少水分、多少真实,很难分辨。所以只能预估,公司觉得百亿元量级能承受,那就干。

晚点:是一年一百亿吗?

陶吉:那肯定没有这么多,相当于批了个百亿规模预算给端到端。今天回过头来看,各家花在端到端上的资源不完全一样,有的因为过去的储备恰好发挥了作用,就能花相对较少的资源做出效果;有的从零开始采集数据,真的是靠暴力砸钱砸出来的,人才很重要,但首先还是资源。

晚点:那长安应该属于后者。

陶吉:我们敬畏时间差,所以更要聚焦,用更快、更准的实验闭环,实现高效突破。我们有接近 3 万张卡的集群,有云服务商跟我们讲,在他们的车企客户里,训练规模最大的单一模型是长安的,用 4000 卡训一个模型,比一些新势力还大。不过,我们也尽量控制了训练成本,没有暴力砸钱。

晚点:你刚到长安看到的基建能力是怎样的?

陶吉:实话实说,比较弱。传统主机厂过去的积累偏控制、偏规划层面,属于团队经验驱动;真正数据驱动的感知、模型部分,储备少,我来的时候长安连自己的 BEV(鸟瞰视角)方案都还没有。我一加入就开始建数据闭环,包括数据采集、标注、模型训练这一整套设施。

后来转向一段式端到端,数据闭环的要求更高了:它的数据量是传统感知模型的好几个数量级,不可能人工逐帧标注,得有一套能大规模自动标注、打标签的流水线,才能把我们叫 “片段”(clip)的数据生产出来。所以我们又从 0 搭建一套新的数据处理系统。

还有算法测试验证的仿真工具。长安最早用的是供应商的传统仿真工具,可以做简单的回灌和可视化,一次最多并行几十个仿真用例,但一次提交代码需要跑数万个仿真集合,远远不够,必须要并行化。

而且自动驾驶方案一直在快速迭代,仿真也得跟着从上一代的 logsim(回放真实路测数据的仿真)和 worldsim(人工构建虚拟场景的仿真)迭代到今天世界模型(用 AI 生成虚拟场景的仿真模型)的方法,我们要一边搭上一代仿真工具,也要一边跟着行业前沿把新一代搭起来,整个过程是边开车边换轮子。

晚点:这个过程可以借助供应商的力量吗?

陶吉:仿真引擎要方便自己团队的工程师调试、可视化、检测是否碰撞、加减速是否合理,但供应商提供的工具是固化的,不能按我们的需求来定制,基本上好的自动驾驶研发团队都是用自己的仿真引擎。我们现在也只有最底层的云服务用到供应商。

晚点:基建从无到有,遇到的障碍可能是什么?

陶吉:障碍其实是 “要不要老老实实打地基” 这个选择。有的企业图快,拿供应商的白盒代码、现成能在车端跑起来的东西,攒一攒就上了,但这种方法的可持续性要打个问号:你能不能真正吸收掌握、并且持续迭代下去?我的理念一直是基础要打好,上面才修得高。

第二是资源和认知。我刚到长安时,团队里做基建(infra)、工具链的,也就三十来人,当时整个智驾团队大约 500 人。这样的比例是不对的。通常一个上千人的团队,跟数据基建相关的至少要占到三四百人。如果只靠从外部招人,时间未必等得及,所以要先把资源倾斜到基建团队,我们启动了内部自由转岗招聘,但当时还有不少同学觉得基建不重要,更愿意在车上写规控代码。

我们 24 年在内部发起 “AI Cornerstone” 的基石计划,明确一定要把这件事干起来,为了让大家觉得它足够重要,还特地起了个英文名。我们给正在工厂实习的校招生做宣讲,把当年和上一年校招进来的同学大批量转到这个方向,承诺他们干满两年后可以自由选择新方向。

晚点:现在长安的基建能力到什么水平了?

陶吉:基建已经在行业第一梯队。只有先把工具做到第一梯队,产品才能跟上。

晚点:你们跳过了两段式端到端,直接做一段式的考量是什么?

陶吉:端到端立项后,我们大概花了三四个月判断技术选型,两条路线并行尝试,再做取舍。结果两段式和一段式各有各的难,时间上很难确定哪个更快。

晚点:你看到的难点各是什么?

陶吉:两段式对传统感知能力的储备、对标注精度和数据量都有很高的要求,我们当时只做了高速上的 BEV 大模型,如果要用两段式做城区,感知数据一样要重新采集、人工标注,起步速度会比较慢。一段式省去了很多中间要处理的环节,见效比较快,理论天花板也更高,但后面持续提升所需要的测试验证、仿真能力要求很高;而且一段式没有两段式的结构化感知结果输出,仿真评测无法用上一代的工具,还需要重新搭建。

我们最终选了一段式,因为这条路线攻克的是未来的方向,更值得投入。选了之后团队士气也上来了,他们还是想做前沿的事情。

晚点:这之前行业里已经有公司做出来端到端了,你们有所谓的后发优势吗?

陶吉:做到 70 分,是有大方向的理论可以参考,但要做到足够好,真是靠实验科学——数据怎么去噪、数据怎么配比调优、加哪些模型特征才有用,都是一天训一二十个模型试出来的。

它有点像生物进化,是一个自然淘汰、筛选的过程,每一轮会有基因突变,适应环境的好基因被保留下来,一代代演进,好的东西越留越多、不好的越来越少。我们每一轮训出来的模型,有很多是残次品,但通过仿真、通过道路测试,我能选出有 “好基因” 的那几个,让它们再往下走、再加新的特征和数据,继续挑出好的。

这也是为什么基建的能力这么重要。基建就像一个厨房:你得有好的炉灶、好的炒菜工具、好的锅和勺子,才能同时快速炒出很多个菜,快速尝出哪个配方好。再具体一点,数据处理、生产那套工具链就像在厨房里切菜备菜——你得有足够多的原料、切菜备菜的速度够快,整个炒菜周期就快;训练的 infra、对算力的使用能力,就是有没有猛火、有没有好的专用厨师。

这些基建能力和快速迭代沉淀下来的数据配方,不是靠几个人带走几段代码和配方就能复制到另一家公司。

晚点:端到端之后,智驾自研的门槛到底是变高了,还是变低了?

陶吉:这要看门槛怎么定义了。如果把 “需要足够多会写复杂代码和规则的人” 当成门槛,那门槛确实降低了,但端到端的门槛是刚刚说的数据基建能力,这背后是一整套体系能力,需要有好的组织和团队融合来支撑,无法轻松复制。我们把整套数据闭环系统和底层云平台打通,就花了至少一年时间,而这还只是基础,还需要做大量实验科学来迭代完善。

晚点:今天大家都在强调的仿真世界模型,它具体能起多大作用?

陶吉:今天仿真世界模型的能力还是被吹得太高了,我了解的实际作用没那么大。一段式没有结构化的感知作为中间结果,是原始传感器画面直接丢给模型。你每改一次模型、车的行为一变,车看到的视角也跟着变了,这时候你得在仿真中同步重构一个新视角下的画面来测试验证,这就是世界模型的一部分应用方向。

它现在的问题还是,视角变化大了,画面重构就跟不上,只能在不变的视角下前后移动,所以只能对纵向行为做闭环——比如验证车能不能及时、柔和地减速、刹停,可一旦涉及变道、转弯这种横向大角度偏移,它跟实车结果的差异还是很大。

坦白说,今天的算法测试方法还是比较原始,以开环仿真为主,再加实车测试。

晚点:有 Robotaxi 公司用积累的数据训练一段式端到端,效果很好。你们怎么看 Robotaxi 数据的价值?

陶吉:我们最近跟做 Robotaxi 的同行交流过。他们证明了用 Robotaxi 的规则数据训练一段式端到端非常有用。以前我会觉得这不合适,因为那是规则写的,去学规则,不就把上限锁死了吗?

实际上 Robotaxi 数据质量非常高,很干净,而且因为都装了 360 度激光雷达,采回来的障碍物都带真值(ground truth)标注,模型能学到对环境很好的表达。而我们不可能给那么多车都装 360 度激光雷达去扫、去标,只能靠自动化标注。恰恰现在自动化标注的准确率还不算很高,质量参差不齐。

用 Robotaxi 数据跑出来的行为一致性很高,经过一层模型的学习后,动作也变得更柔和、平滑,因为模型做不了突变的动作,输出一定是连续的。再加上一部分人开的数据来微调,就用了比较小的资源做到了比较好的效果。

现在,我们也在尝试把小量特定场景数据加到模型里,看有没有帮助,但也不必完全复刻别人,毕竟大家各有基因。重要的是要保持开放、多尝试。

晚点:如果雇佣数百个好司机,采集他们的开车数据,是否也能接近 Robotaxi 的一致性?

陶吉:替代不了。一是没有激光雷达的真值;二是保证不了他们开车的动作一样、风格一样,我们交代司机一定要遵守交通规则,他们就慢慢开,这样采集回来的都是低速数据,没有超速和乱变道,但效率也没有了。后来我们跟网约车平台合作,用几百台网约车来采数据,效率起来了,但乱开、压线的比例又高了,好不容易筛了一轮数据后,又发现司机在不该休息的时候休息了、在路边停着,模型都会把这些行为学进来,所以很难办——Robotaxi 就不会无缘无故在路边停着。

只要人对、方向对,做出来是早晚的事

晚点:之前业内也陆续有人才加入传统主机厂干智驾,但很多人都没有成功,你犹豫和担心过吗?

陶吉:有些朋友觉得,我胆子挺大的。他们比较担心,我去一个陌生而且不是世俗认知里有这方面基因的传统车企,会很难适应。过去从互联网到汽车行业的人,有些落地都做得不是特别好,更不用说在央国企的难度了。

传统主机厂从外部招来的人才,通常会被当做专家,是行政领导旁边的一个顾问——解决不了问题时来问你,但责任主体还是自己的人。但长安不一样,我来了第一天就拿到了实权,给资源、搭团队、全程为智驾负全责。

晚点:刚刚你说了,这是个百亿规模的投入,在长安属于什么级别?

陶吉:长安历史上规模最大的战略投资项目之一,直到今天也是。

晚点:你怎么说服长安的管理层在一个项目上花这么多钱?

陶吉:其实没有特别说服的过程,只是把道理和同行的情况展示清楚。当时朱董(长安汽车董事长朱华荣)甚至还在问:这够不够?是不是太少了?长安既然要做,就要做成。

晚点:担不担心立项之后,万一做不出来被追责、被卡预算?

陶吉:我观察,其他地方立项困难,更多是没想清楚要不要做,外部噪音很多,内部对团队的信任又不够,就会反复质疑、反复让你论证——说白了是最高决策层不够笃定。

长安是真的想清楚要干,团队也让他们看到是值得托付的。朱董一直说,做不做得出来,最终责任是他来背。还有高层跟我开玩笑地说:做不出来你还想走?你就得跟我一直做。其实是变相安定团队,让大家别担心,这个事我们会一直做下去。

晚点:他没有说 “做不出来你就走”。

陶吉:对,所以没有 “做不出来就把你怎么样” 这回事。

晚点:他们还给你什么保证?让你可以大体上按照你的想法去做事?

陶吉:我现在有一个总裁助理的行政职称,长安也给智能化板块设计了一个公司叫长安科技,作为 “特区” 做机制的市场化,智驾的签审权、流程都在我这。

晚点:民营企业可以用高薪和股权来招人、激励员工,但央国企这方面有客观限制,怎么办?

陶吉:央国企有当期经营目标实现、工资总额等压力,还得充分考虑内外部公平性的问题。长安给了我一个总的工资池子,让我自己看着来,要招到优秀的人才,又要充分调动原有的人才池。我定了一个 1:4:N 的比例,即每个方向都有 1 个能定大方向的人,4 个聪明的、跟他同频并且有过相关经验的人,他们都有一定级别、薪酬基本能跟市场匹配;N 则是这个池子里的基数,大多是原来主机厂内部招的人,有了方向和指引之后做执行。

据我所知,有些央国企希望通过引入几名行业头部人才来开展自研,我觉得可行性不高。智驾是一个非常庞大的系统工程,想靠几个人把所有人都教会、带起来不现实。到了 24 年下半年转型做端到端,人才画像变了,我们要找的人未必对传统自动驾驶那套特别熟悉,但需要对模型、对数据、对天然用 scaling 的方式做事有直觉。

我们早期招人挺顺利的,关键岗位都缺人,可以吸引一批在原来公司没法按照自己技术理念做事、或者想负责更大范围的人才。这些负责人绝大多数都是过去共事过,或者熟人非常信任推荐的,聚起来比较快。

晚点:你们做端到端时,智驾的变化、进展都挺快,没多久 VLA 就量产上车了,这些对你有影响吗?

陶吉:我不是一个容易被诱惑的人,还是喜欢正向去想:到底需不需要这个技术来做事。

VLA 和再往前的 VLM,这套理念我们很早就讲了:24 年的长安科技生态大会上,我就提过 “全模态的输入、全模态的输出”——整车应该是一个完整的智能体(agent),能接收摄像头、导航、语音、车内传感器、座舱交互等各种输入并理解,输出也应该是多样的,包括驾驶行为、语言交互反馈或者车内打开车窗之类的适时控制。理想情况下是用一个大一统模型来做,类似 VLA 或者今天大家所说的基模(Foundation model),从云端蒸馏到车端,只是真正的工程化落地没那么理想。

技术还是为了解决问题,不能为了用而用,今天我还没看到行业有哪家公司的 VLA 完整证明它的驾驶能力超过了端到端的上限。我们内部也有个小团队在做纯 VLA 驾驶,展现的潜力还可以,但我们暂时还不会大规模转过去,得先看到有先例证明它能突破更高的天花板。

产品上,要实现类多模态输入输出的效果,方法有很多种,未必非叫 VLA,只要用户觉得好用就行,我们今天也能用语音来跟智驾交互,花样很多,但有些是真需求,有些可能是伪需求,内部也一直在辩论。

晚点:你们现在预研的 VLA,具体表现如何?

陶吉:特点是大脑比较聪明、小脑有点缺陷。它的绕障时机、跟动态障碍物交互、选道的准确性,更像人、更有思维感;但在横向纵向的稳定性、速度合理性上还有不足,离端到端纯模仿学习的水平还有差距。背后的原因我很难用理论解释,更多是实验科学。

晚点:听下来,长安的策略还是在跟随,而不是通过走一条新的路来实现弯道超车?

陶吉:以长安的人才储备和基础设施,不太适合第一个探索完全 “无人区”,这需要踩很多坑,资源消耗可能要达到第二、第三名的一个数量级以上。我们需要弯道超车,但实现方式是找一条能让我们进第一梯队,同时投入又相对可控的路径,不是纯技术逻辑驱动。我也不是一个纯技术负责人,需要综合考虑很多因素。今天大家讲了很多 buzzwords(热词),结果跑得最好的不是讲最多的那家,那这时候就需要冷静思考一下了。

我们不到一年量产高速 NOA,一年半到今天准备城区 NOA 的量产,放到整个行业来看,还算比较快,因为这里面包含了构建团队、重新搭基建的过程。其他公司过去在数据和基建的储备上比较完善,做起来会更快一些,长安能做到这个进度,还是不容易的。

晚点:这是你们作为追赶者必须要做的取舍,还有别的关键点吗?

陶吉:大方向不要错,按正确的方法来做事。首先 “我” 得对,“我” 才能带来一批对的人和对的组织文化。如果组织的目标明确、能够很好协同,公司也愿意投入足够的资源,这是水到渠成的事,可能早几个月、晚几个月,但必定会往这个方向走。

晚点:去年你们喊 “全民智驾”,量产和下放并行做,你们压力大吗?

陶吉:挺大的,但现在有个好处,端到端之后,模型的迁移裁剪比原来那么复杂的软件栈容易多了,只要掌握了模型裁剪、量化、部署的这套能力,这件事就变成一个工程化的迁移动作。如果同一套模型可以同时在 500 TOPS 和 100 TOPS 算力芯片上跑通,那么中间再加 200、400 就会比较顺畅。就像大语言模型,一发就是从 2B(2 亿参数量) 到 7B 到几十、几百 B 都有。

晚点:进入数据驱动之后,每年需要的训练费用不降反增,未来怎么保障这块的投入?

陶吉:是,AI 研发完一代,还有下一代、下下一代,每年都是一样的规模投入。朱董昨天也正好在会议上提到,要学会接受和了解这种新模式,AI 不像过去发动机、电池,开发完一代以后就不用持续投入更多。所以长安要聪明地解决资金来源,聪明地把每一代研发的能力外溢做好,首先内部搭载量要上来、规模化分摊,同时要外溢到其他相关领域,撬动社会资源创造更多价值。

把智驾做成生意,比做出来更难

晚点:你在百度从 0 到 1 做过无人车,之前也创业过,人的选择、组织搭建、工具链和产品开发,这些是在你的舒适区之内吗?

陶吉:这些都还在我的认知范围内。但做完这些不代表就成了,单是技术研发的过程就非常坎坷和耗费心力,我过去也没做过端到端,我也要跟大家一起往前,不断学习、提升认知。你看头发也白了不少。

团队整个状态有点像坐过山车,前一天某个能力突然提升了还在狂喜,第二天泛化一下,发现还有很多问题又狂悲,所以大家说不要 “狼来了”。改善要经过相对漫长的时间。

晚点:还好,白头发看不太出来,看着还是挺年轻的。技术之外,超出你认知的是什么?

陶吉:前面讲过,我不只是技术负责人。除了技术方向的选择,资源怎么分配,用什么硬件载体来搭自研方案,智驾之后往哪走,整车智能的含义,产品定义,还有怎么做车型最愿意买单的方案,这些都是我要考虑的。

长安最开始看待高阶智驾、城区 NOA 就像 “白月光”,想达到最高点。我们去做了,但做完之后发现平台太贵了,没有车型愿意搭,这时大家变得格外现实,又要好又要便宜。我们跟新势力不一样,新势力早期只做高配的研发,中低配都交给供应商了,相对聚焦,不走商业闭环的逻辑,而是想通过自研把高阶的品牌立起来,带动股价上涨,股价可以用来补贴研发。

但长安作为央国企不能只看资本市场表现,更要看成本和效益。

长安的车型跨度大,从不到 10 万到 30 万都有,所以希望自研团队可以从 5 TOPS 平台一直做到 1000 TOPS,方便不同价位车型搭载,但这肯定不行,行业内没有任何一家车企、供应商会做跨度这么大的方案,大家都是专攻一段。这时候我要做取舍,到底应该选什么样的平台货架才能规模化搭载、分摊团队投入,这是这两年在技术之外一直思考的事情。

晚点:我们很少会和智驾负责人聊到货架搭配。

陶吉:我之前做 L4 确实不太关注这些,怎么把生意做成,是我到主机厂后才逐渐关注的,因为经常被要求做证明题,训模型太花钱了,这些投入稍微抖一抖,可能整个公司利润都上升好多。朱董坚持我们要自己干,但同时也要想怎样可以少花点钱。

晚点:很多人觉得,更好的智驾体验需要一颗更对路的自研芯片,你怎么看?

陶吉:我觉得今天不需要,在走到真正跨域融合的整车 AI 之前,市面上给智驾、座舱用的芯片已经足够成熟,今天主流的算子库是相对明确的,底层依然是基于 Transformer 架构,已经应用了很多年,并没有出现技术突变。芯片供应商也一直在跟进行业的技术演变,比如 4、5 年前设计的英伟达 Thor 芯片带宽还只有 270G,随着模型越来越大,最近的智驾芯片带宽已经达到了 500G,并不存在 “只有主机厂自己知道、而供应商看不到” 的算法洞察。

今天所谓的舱驾一体芯片更多还是基于降本需求,两个域控合为一个以后,节省了周边元器件、供电、线束,但在内部还是一分为二、硬隔离在用,智驾跑智驾,座舱跑座舱。未来如果真的实现了多脑合一,需要的芯片跟现有的在定义和规格上有巨大差异,那才需要自己来做芯片。

我们内部也争论过要不要自研芯片,理由无非是两个:一是软硬垂直整合做优化,特斯拉是典型案例,但在现实中,芯片供应商用自己的芯片都没有外部方案商用得彻底,这不是技术原理问题,而是组织专注度的问题;二是不同车型的 BOM(物料清单)都能统一、集量降本,但以单一主机厂的搭载量,很难实现真正的成本分摊,降本空间有限。

我觉得,如果能把模型跨算力、跨芯片的裁剪做得成本足够低,这才是今天最大的芯片自由,因为行业现在已经有不同供应商出不同算力的芯片,市场不再被垄断,选项变多了,如果能做到芯片自由,就有很大的议价权,帮助降本。

这也能相对解决我们不知道怎么做货架搭配的烦恼。用户到底喜欢高性价比的中算力方案,还是更贵、性能也更好的高算力方案,过去很令我们纠结,因为一旦做多了就做不过来,但如果芯片自由了,货架搭配就会很灵活,可以等市场信号相对明确之后再定平台。所以对我们来说,今天更值得在芯片自由上发力。

晚点:智驾对消费者买车的决策影响有多大一直存疑,尤其在 15 万以下的市场,你们看到的真实情况是怎样的?

陶吉:我们做过门店调研,有 80% 的用户会主动追问智驾,有些人会说 “我用不用你别管,你最好得有。” 我觉得主流用户已经在门口敲门了,但跨进门的那一下还需要助力。

我们今年就想解决这个问题,让长安的用户从不了解、不相信、不敢用到敢用。我们开始在各地门店放大屏开属地直播,不是老板偶尔试驾,而是播当地真实的智驾测试,有接管也照样播,让用户看到智驾在哪些场景可以、哪些场景不可以,以及 OTA 之后发生的变化。在这个过程中,用户会有参与感和掌控感,对智驾的能力边界有更清晰的认知,不把它当全能也不当无能。

这个方法也能解决我们的销售问题。我们的销售前期对智驾很不自信,从来不会主动介绍,反而抱着 “你最好别问我智驾,也别让我带你试驾” 的态度。我们在门店直播也是想先让销售更有信心,再让他们把智驾讲出去。

晚点:今天智驾基本都 good enough 了,你们的产品特点是什么?

陶吉:首先是安全。作为央企,责任担当是放在第一位的,要教用户正确使用产品,使用过程中如果出现问题,也要及时响应负责。再往上一层是 “心理安全”:车要开得更像老司机,不能突然踩一脚急刹、让人成天提心吊胆,要让人放心去用。这也是当初选择端到端的一个理由,这条路能走向真正好用的智驾,而不是过去的简单可用。还有一层是 “情感安全”,车成为伙伴,能让你时刻感觉到被照顾,也能掌控它,当它做得不好,可以让它改,所以我们要做交互式智驾。

你们也试过了,我们现在的方案还需要打磨,有些场景要在体感跟安全之间做权衡、取舍,量产时还是要先解决安全问题,再尽最大努力用算法打磨体验。

晚点:昨天我们试车,超车前我们那台车自动闪一下远光,有点出乎意料,这是你们的某种产品小巧思吗?

陶吉:算是吧,这类动作今天还是靠产品经理的小巧思,但我觉得未来可以靠数据驱动来找到用户真正的痛点场景。端到端驾驶实际上是模仿人类司机的驾驶行为,未来的整车智能也可用类似途径实现,训练数据变成 “整车片段”,而不只是 “驾驶片段”,把驾驶数据、交互数据——人说了什么话、跟车机做了什么互动、按了什么按钮这些脱敏后的数据进行系统分析,发掘用户的真需求。

晚点:现在消费者愿意用智驾了,但还不愿意为智驾付费。

陶吉:商业化是现在行业面临的最大难题,不管主机厂、供应商都活得很苦:在主机厂的被拷问为什么要自己做、不用供应商的?在供应商的被拷问,主机厂给的收入那么少,为什么还要去 “跪舔”?工程师都很苦,归根结底还是行业投入大、收入少,而收入的源头是用户。

我最近一年也在琢磨,对 L2 来说,保险可能是一条出路。智驾降低了事故率、提高了道路交通的综合安全性,这本身跟保险相关,那保险为什么不能跟这些数据联动起来?之前也有政府想和我们做一个示范合作,希望把数据放在区块链上,来证明智驾跑出来的事故率是真的,这样保险公司就能采信、联动降保费。

放权基因、组织磨合与 “失意者联盟”

晚点:这几年一批主机厂孵化的智驾自研团队已经退出,长安为什么执着于自研?

陶吉:一家有野心的主机厂,下半场不做智能化,还能做什么?将来汽车一定会跨域融合,统一成一个 “大脑”、一个 agent,今天的舱驾、底盘、热管理……都还是分散在各自的小控制器里,只跑一些智能化的小程序,没法联动产生化学反应,这些跨域的数据将来在训练阶段就得放在一起,就像人一样由一个大脑来综合判断。主机厂来做这件事很顺,但前提是你得有底下那套能力。

这套能力的核心就是数据闭环:把车辆运行产生的数据拿回来,变成模型进化的燃料。它是水面之下的冰山,比水面上看到的结果更重要。一段式端到端其实是数据驱动的范式变革,infra 跟不上、这波没赶上,就进不到这个范式,也就没有下一个阶段。

朱董一直在讲 “无 AI 不长安”,这个指导方向要落地,需要长安每一层领导都真正认识到 AI 的力量。把智驾自研干成的过程,本身就是一次启蒙,带动整个长安的思维方式也跟着转过来。对长安这样的央企,还多一层责任——智能化和产业链安全深度绑定,必须要有一个自主可控的本土产业平台,掌握关键核心技术。

自研也有现实的好处,比如 OTA 频率能提上来。供应商不可能只为一家车企做 OTA,得等它的大版本,自研之后,我们可以做得更快,用户看到了进化的过程,情绪价值也有了。

晚点:3 年前你离开千挂可以去新势力或者智驾公司继续做自动驾驶,也可以转投具身智能创业,但你都没有选这些看起来更主流的路。

陶吉:我之前也从未想过会去长安。23 年中,我已经拿到机器人创业的种子轮融资。当时有几家主机厂邀请我,我想着可以去看一看、了解了解。转了一圈之后,我被长安打动了。

他们带我到每层楼看了他们的团队和工位,和我之前的刻板印象不同,大家讨论的氛围跟科技公司很像,也非常开放,每到一层随机抓个骨干来跟我聊技术细节。智驾不管做得好不好,都带我去试驾,而且实际超出我的预期。长安在地平线 J3(5 TOPS)平台上自研规控做了高速 NOA,规控是有积累的。

他们知道我想做机器人,也理解我的想法,因为他们也认为汽车技术未来一定会外溢到具身智能。他们没有讲 “我们的好,其他的不好”,反而说得很诚恳:今天做车、做智驾很卷,我们很需要一个 “堂主” 来带着我们把这一关走好,帮长安上一个台阶,你先过来跟我们一起度过眼前的苟且,我们再一起奔赴诗和远方、一起干具身智能。我听了挺感动的,愿意相信他们。

长安也说到做到了,几乎每次开高管会议或战略会都会提到具身智能,能感觉到这个词真的进了长安,不是随口一说,我觉得他们是认真的。

晚点:你愿意相信长安,但长安为什么在一开始就那么信任你,让你统管人工智能相关业务?

陶吉:我也是后来才知道,长安当时为了找到合适的人负责智驾,几乎把国内这个圈子的人都聊了一遍,花了一两年时间,从各个视角了解候选人,不只看 title,还要找到气质和想法最吻合的人。我们在前期沟通中,就已经有共鸣和默契——干成这件事一定要有足够的授权。

这其实也是长安的基因。早期长安从兵器制造转型做车,先从微车开始,后来转做乘用车,每一步都走得艰难。西南远离发达地区,离头部供应商也远,没有人支持,也没有经验、没有技术,长安从那个时候就学会自力更生,危机感很强。

他们转型做乘用车,是上一代从美国底特律回来的汽车人带着从头开始建设,所以他们有充分尊重、信任、授权外部专家的传统。也只有在长安,我看到过一个叫 “专家服务办公室” 的部门,专门负责全方位服务外部招聘的专家。早年的服务非常夸张,回国的专家带着家人一起定居重庆,他们帮人把房子安排好,当时屋外还比较荒凉,晚上有青蛙的叫声,专家说睡不好,他们就带队去抓青蛙。现在那个部门的人跟我们在北京、上海的智驾员工都很熟。

晚点:但现在和 3 年前不同,智驾行业的吸引力已经大打折扣。猎头跟我们说,智驾 offer 在候选人心中的排位很靠后,大家都优先去大模型和具身智能公司。

陶吉:对,我们看到毕业两三年的人跳去具身智能和大模型,一般能拿到非常不错的薪资涨幅,对我们招人的挑战很大,整个智驾行业都一样。

尤其我们才刚刚做出成绩,对外的宣传不够,“酒香也怕巷子深”,我希望大家这次可以闻到在长安这里也有一坛 “好酒”。我们团队各个负责人的背景真的还挺好的,可以带着大家一起做很多不一样的事情。

晚点:比如,物理 AI?

陶吉:我想起个和物理 AI 不同的名字,叫行动 AI,更强调在物理世界的决策和执行,我们未来也要朝这个方向走。自动驾驶积累的能力,一定会外溢到整车的智能,走向移动物体、移动载具、移动工具的智能,再走向整个物理世界。

长安有央国企的势能,还有基盘销量带来的量产数据优势。今天各家都还没有真正开始 PK 这个板块,大多数都还处于靠测试车采集数据来启动的阶段,我们有稳定的基盘业务,可以持续提供燃料去迭代。

晚点:招人只是一方面,你要怎么留住内部的人才?

陶吉:早期从信任网络进来的核心骨干,还是有使命愿景驱动的,大家是真的想把这件事干成。他们决定了团队的调性。其实碰到一个能跟主机厂原有团队融合得比较好、大家目标也比较一致、能干事的团队,挺难得的,很多人过去在别的地方想干,但没干成,都是有过创伤体质的,包括我自己。

晚点:所以你们是 “失意者联盟”?

陶吉:开玩笑的说法,也算是吧(笑)。我觉得挺好的,“失意” 代表你想做成一件事,如果这个地方的土壤恰好适合,那 “失意者联盟” 就变成了真正有战斗力的团队。人能不能做成事,跟土壤的契合度有一定关系。但干成之后,也得持续让大家看到未来,所以我们要向外融资、机制灵活化,这样才能保持团队的长期稳定性。

晚点:你从千挂的经历学到了什么?

陶吉:创业怎么玩、VC 是什么,还有人性的复杂、组织融合的重要性。当时千挂内部组织派系分裂,作为 CEO 就应该杀伐果断,该强势就强势、该压制噪音就压制,不能让下面的人拉帮结派搞斗争、搞内耗,要找到一个共同的价值观和目标去凝聚不同文化背景的人。所以来到长安之后,我特别强调组织的融合,不管是工程团队还是算法团队,从外部引进的还是长安本土的,我都一视同仁,该批评就批评,该做决策就做决策。

我在办公桌上放了一个游戏机,有两个手柄。我有时候会跟互相吵架的团队开玩笑,让他们实在不行,就来我这打一把拳皇,谁赢了听谁的。当然没真这么用过,但得引导大家互相理解对方的视角和可取的地方,我再及时公正地决策。

晚点:你的团队分散在重庆、北京、上海三个地方,异地办公给组织融合带来的阻碍大吗?

陶吉:所以我们不是按地域来划分职责,比如北京只负责算法,重庆只负责工程,我们是按方向划分,方向负责人要跨三地管理自己的团队,用 1:4:N 的架构把能力往下传,虽然负责人比较辛苦,要多地跑,但北京、上海先进的能力可以辐射到重庆,带领重庆团队一起做。这套方式目前看来比较适合长安的基因,内外部融合的效果还可以。

当然也还有提升空间,我们要多把两边的同学聚到重庆,只有我一个人感受到长安对人才的包容、欣赏它过去的历史和精神,是不够的,要让大家都建立共同的感受。我们现在最核心的骨干至少有一半的工作时间都在重庆出差,要多在一块讨论、一起上车、形成共识。

晚点:长安给你们提供了怎样的环境?

陶吉:长安自己培养起来的人对公司有很高的忠诚度,很多员工从祖辈开始就在长安工作了。虽然他们也会互相吵架,但一旦涉及公司的大方向,就会非常团结。比如从外部来了一批收入很高的人,他们也会有不平衡,但在大是大非面前,只有这样才能干出来,他们是能接受的,而且执行力非常强,定了哪个方向就说一不二地干。

我们的理念相近,长安的 SDA 项目,是想做一个 “类人” 的架构——用最低的延迟、最鲁棒的连接把每个末端传感器跟中央大脑连接起来,虽然表述不同,但跟机器人说的是同一件事。

晚点:你最近学到的新知是什么?

陶吉:我最近有新的思考,今天无论是端到端、VLA 还是世界模型,都还学不会推测人的意图。比如人在开车时有个 “社交准则”:交替通行——如果我已经连续让了两次路,后面的车也不好意思再挤了,会主动先让我过。这是灵长类动物之后才开始有的能力——理解别人为什么要这样行动,以及我行动之后别人会怎么解读我的动作。

我觉得这种对人的意图推测,应该有一个跟世界模型并列的模型,世界模型是对物理规律的刻画、演化的推测,这个模型则是对智能体与智能体之间意图的演化和推测,它俩要合到一块,才是一个完整的真实世界。

晚点:这个智能体意图推测模型应该怎么训?

陶吉:这是好问题,我们内部有一个小团队在调研,现在讲还太早了,研究还没有成型。

晚点:你是百度自动驾驶最早的成员之一,见证过这个行业最辉煌的时刻,但现在更多人在逃离这里。

陶吉:2016 年我们在百度开视频周会,国内会议室坐了一排人,有李震宇(它石智航创始人),屏幕那边也坐着在美研的一排人,有韩旭(文远知行 CEO)、彭军(小马智行 CEO)、鲍君威(图达通 CEO)...... 都是后来的明星公司 CEO,自动驾驶当时吸引了最顶尖的人才。

当年这群人基本都还在行业里,但是智驾太卷了,看不到上升空间,离开的人确实不少,我身边很多小伙伴都失望了,互相开玩笑劝对方别干了,很多人跳去了具身智能行业。

我也想过去具身创业,但理性判断之后,觉得具身目前的技术路径和产品形态都还不清晰,商业化周期也特别漫长,需要融到足够多的资金才能撑过泡沫之后的冷静期。那就不如继续在车上发力,我干这行 13 年了,这个行业还是不错的,一直都排在各个垂直行业的前面,只不过今天大模型和机器人更火。

晚点:13 年来都在干智驾,你是一个善于坚守的人吗?

陶吉:我可能比较慢吧,惯性比较重,自动驾驶是我最开始选择做的一件事,肯定希望能走到终点。2013 年,我们在百度刚开始做无人车,内部就在说,为什么最聪明的人都去大厂贴广告了?我们当时很愤青,觉得这不对,那时就埋下了做物理 AI 的种子,自动驾驶在今天依然是实现物理 AI 最快、也最有希望的领域。

李安琪对本文亦有贡献。

题图来源:长安科技