对谈长安智驾陶吉：一段式端到端没捷径，只有“边开车边换轮子”|主机厂|城区辅助驾驶系统|智驾|自动驾驶|长安汽车|陶吉

追赶者的每一步都是取舍。

文丨郭瑞婵

编辑丨龚方毅

“今天行业里真正量产了一段式端到端（从传感器直接到驾驶行为的一体化模型）的车企和供应商，不到一只手的数量，” 长安汽车首席智驾官陶吉说，“我也感觉在公众脑海里，怎么都轮不到长安。”

下半年长安会量产这套智驾，在那之前，《晚点 Auto》分别在上海和重庆见到了陶吉，跟着他在重庆从下午试车到晚上 —— 这是他日常工作之一，拉着骨干一起，顺手在车上把会也开了。几次交流下来，和技术细节讨论得一样多的，是一个追赶者在有限条件下如何做出的一连串具体选择。

而那些取舍的背后，超越了一个纯技术负责人的职责范畴。

三年前，陶吉辞掉上一家公司的 CEO，拒掉了具身智能的创业融资，跑到了长安。当时几家主机厂发出邀请，他选长安的原因之一是：先一起做好智驾，再一起做具身智能。一年后长安将端到端列为智能化的未来战略方向，计划投入百亿资金用于研发，“这是长安历史上规模最大的战略投资项目之一”。

长安早年转做乘用车时从底特律请回一批工程师从头建设，专门设了一个 “专家服务办公室”，回国的专家嫌重庆屋外青蛙叫得睡不着，办公室就派人去抓。重视人才的传统延续到了今天。陶吉来长安第一天就有了签审权、预算，相当于一个小特区。

追赶者的每一步都是取舍。过去几年，由传统主机厂孵化的智驾自研团队大多走向收缩，长安的智驾布局虽早，但主要以规控为主，在端到端转型里不占优。陶吉刚加入时，长安没有可以让车识别路况的自研感知模型，500 人的团队里只有三十多人给模型做数据和开发工具，而自研端到端仅这个板块就需要数百人，整体至少达到千人规模。

国企招人薪资有限，还要兼顾内部公平。同时，智驾是系统工程，大批量招人后，不同背景的人才之间容易产生摩擦。陶吉在这件事上有教训。他加入长安前创办了 L4 卡车公司千挂科技，那段经历让他知道 “该强势就强势，该压制噪音就压制”。

他在长安发起 “AI 基石计划”，把大批校招生转到基建方向，并设定了 “1:4:N” 的人才比例，每个方向配 1 位能定大方向的 “明白人”、4 位与其同频并有过相关经验的 “聪明人”，再由他们带动 N 位 “执行人” 往前冲。3 年间，团队从 500 人扩充到 1500 人，他形容 “边开车边换轮子”。

陶吉 2013 年在百度做无人车时，团队里的人就在问，最聪明的人为什么都去大厂贴广告了？他说那时起就想把 AI 用到物理世界里，到现在也没变；中间放弃具身智能的创业，是因为具身智能的技术路径和产品形态都不清晰，需要大量资金长期投入，而自动驾驶仍然是实现物理 AI 最快的领域。

他推崇特斯拉，关注最前沿的技术和智驾排名，会主动带队向同行请教，但他也清楚长安的禀赋，并不追求做第一。“我不是一个容易被诱惑的人，” 他说。2025 年一季度末决定全力押注一段式端到端之前，陶吉让团队并行测试了一季度的一段式和两段式端到端，最后才选择基建要求更高但上限也更高的前者。对 VLA（视觉-语言-动作模型）的态度也一样，如果没有一家公司证明它的表现超过了端到端，长安不会盲目大规模投入。

这也是陶吉第一次做端到端，一下狂喜、一下狂悲，头发白了不少，但他说，只要方向没错，按正确的方法做事，做出一段式端到端是水到渠成，“可能早几个月或晚几个月，必定会往这个方向走。”

以下是《晚点 Auto》和陶吉的对话，经编辑：

一段式端到端没有捷径

晚点：传统主机厂自研智驾在一段时间里曾被判了 “死刑”，很少人相信你们能做出一段式端到端。

陶吉：今天行业里真正量产了一段式端到端的车企和供应商，不到一只手的数量，我也感觉在公众脑海里，怎么都轮不到长安。

早期传统主机厂做智驾，容易对技术和路径判断不足，要么走向赛马，要么在供应商和自研之间来回跳，都会带来研发上的问题：方向不正确，或者积累不能持续，最后半死不活。再一个是机制和组织问题，科技公司背景的人跟传统主机厂背景的人融合不了，团队里做模型的和做规则的融合不了，就会产生严重内耗。

这需要天时、地利与人和，得找到合适的人、授权，沿着一个正确的方向走、持续积累，看到逐步起来的过程，才能不断增强信心，不然坚持不住。

长安已经做得不错，但一度也很紧张，我们做端到端花了一年六七个月，中间面临很多 “效果到底行不行”“什么时候才能成” 的质疑，我们还有央国企的身份，上级单位的关注也会带来压力，得顶住。长安能做出来，我觉得值得在中国自动驾驶历史上标记一下。

晚点：23 年你加入长安时，智驾技术路线的端到端转向还不明显，你们怎么确定技术方向？

陶吉：最早 23 年底做了一个三年规划，当时特斯拉发布了 FSD V12，我们看到了端到端的趋势，但不能在一穷二白的情况下一步登天，要逐步先把感知的各种小模型一统，再把感知跟规控模型一统，往端到端走。

所以第一年先用上一代感知大模型加手写规控代码的方法，把高速 NOA（自动辅助导航驾驶）快速做出来，同步补一些工具链、基建能力。24 年下半年高速 NOA 量产之后，行业同步发生了变化，理想用端到端实现了弯道超车，我们深感不能再用老的范式来做城区 NOA，一定要直接进入端到端，所以在公司内部开始论证、立项。

我的立项材料写了两个月，因为立项很重要，端到端需要算力和数据，花销的大头是资源，人的占比反而小了，这些资源投入在央国企需要经过正式的流程。我们 24 年 10 月立项通过，虽然流程长，但我观察央国企有一个好处：一旦决定要做，momentum（动力）会非常强，决定了，就不会轻易再改，这对团队来讲是好事。

晚点：这些技术细节怎么解释给平常主要关注传统业务的高层听？

陶吉：他们不会关注具体的技术细节，充分授权，我只要负责把这事做成功。讨论要投多少资源比较难，那个时候行业也不明晰，有人说非常贵，特斯拉花了 1000 亿，国内头部可能每年花一、两百亿在做智驾，这里面有多少水分、多少真实，很难分辨。所以只能预估，公司觉得百亿元量级能承受，那就干。

晚点：是一年一百亿吗？

陶吉：那肯定没有这么多，相当于批了个百亿规模预算给端到端。今天回过头来看，各家花在端到端上的资源不完全一样，有的因为过去的储备恰好发挥了作用，就能花相对较少的资源做出效果；有的从零开始采集数据，真的是靠暴力砸钱砸出来的，人才很重要，但首先还是资源。

晚点：那长安应该属于后者。

陶吉：我们敬畏时间差，所以更要聚焦，用更快、更准的实验闭环，实现高效突破。我们有接近 3 万张卡的集群，有云服务商跟我们讲，在他们的车企客户里，训练规模最大的单一模型是长安的，用 4000 卡训一个模型，比一些新势力还大。不过，我们也尽量控制了训练成本，没有暴力砸钱。

晚点：你刚到长安看到的基建能力是怎样的？

陶吉：实话实说，比较弱。传统主机厂过去的积累偏控制、偏规划层面，属于团队经验驱动；真正数据驱动的感知、模型部分，储备少，我来的时候长安连自己的 BEV（鸟瞰视角）方案都还没有。我一加入就开始建数据闭环，包括数据采集、标注、模型训练这一整套设施。

后来转向一段式端到端，数据闭环的要求更高了：它的数据量是传统感知模型的好几个数量级，不可能人工逐帧标注，得有一套能大规模自动标注、打标签的流水线，才能把我们叫 “片段”（clip）的数据生产出来。所以我们又从 0 搭建一套新的数据处理系统。

还有算法测试验证的仿真工具。长安最早用的是供应商的传统仿真工具，可以做简单的回灌和可视化，一次最多并行几十个仿真用例，但一次提交代码需要跑数万个仿真集合，远远不够，必须要并行化。

而且自动驾驶方案一直在快速迭代，仿真也得跟着从上一代的 logsim（回放真实路测数据的仿真）和 worldsim（人工构建虚拟场景的仿真）迭代到今天世界模型（用 AI 生成虚拟场景的仿真模型）的方法，我们要一边搭上一代仿真工具，也要一边跟着行业前沿把新一代搭起来，整个过程是边开车边换轮子。

晚点：这个过程可以借助供应商的力量吗？

陶吉：仿真引擎要方便自己团队的工程师调试、可视化、检测是否碰撞、加减速是否合理，但供应商提供的工具是固化的，不能按我们的需求来定制，基本上好的自动驾驶研发团队都是用自己的仿真引擎。我们现在也只有最底层的云服务用到供应商。

晚点：基建从无到有，遇到的障碍可能是什么？

陶吉：障碍其实是 “要不要老老实实打地基” 这个选择。有的企业图快，拿供应商的白盒代码、现成能在车端跑起来的东西，攒一攒就上了，但这种方法的可持续性要打个问号：你能不能真正吸收掌握、并且持续迭代下去？我的理念一直是基础要打好，上面才修得高。

第二是资源和认知。我刚到长安时，团队里做基建（infra）、工具链的，也就三十来人，当时整个智驾团队大约 500 人。这样的比例是不对的。通常一个上千人的团队，跟数据基建相关的至少要占到三四百人。如果只靠从外部招人，时间未必等得及，所以要先把资源倾斜到基建团队，我们启动了内部自由转岗招聘，但当时还有不少同学觉得基建不重要，更愿意在车上写规控代码。

我们 24 年在内部发起 “AI Cornerstone” 的基石计划，明确一定要把这件事干起来，为了让大家觉得它足够重要，还特地起了个英文名。我们给正在工厂实习的校招生做宣讲，把当年和上一年校招进来的同学大批量转到这个方向，承诺他们干满两年后可以自由选择新方向。

晚点：现在长安的基建能力到什么水平了？

陶吉：基建已经在行业第一梯队。只有先把工具做到第一梯队，产品才能跟上。

晚点：你们跳过了两段式端到端，直接做一段式的考量是什么？

陶吉：端到端立项后，我们大概花了三四个月判断技术选型，两条路线并行尝试，再做取舍。结果两段式和一段式各有各的难，时间上很难确定哪个更快。

晚点：你看到的难点各是什么？

陶吉：两段式对传统感知能力的储备、对标注精度和数据量都有很高的要求，我们当时只做了高速上的 BEV 大模型，如果要用两段式做城区，感知数据一样要重新采集、人工标注，起步速度会比较慢。一段式省去了很多中间要处理的环节，见效比较快，理论天花板也更高，但后面持续提升所需要的测试验证、仿真能力要求很高；而且一段式没有两段式的结构化感知结果输出，仿真评测无法用上一代的工具，还需要重新搭建。

我们最终选了一段式，因为这条路线攻克的是未来的方向，更值得投入。选了之后团队士气也上来了，他们还是想做前沿的事情。

晚点：这之前行业里已经有公司做出来端到端了，你们有所谓的后发优势吗？

陶吉：做到 70 分，是有大方向的理论可以参考，但要做到足够好，真是靠实验科学——数据怎么去噪、数据怎么配比调优、加哪些模型特征才有用，都是一天训一二十个模型试出来的。

它有点像生物进化，是一个自然淘汰、筛选的过程，每一轮会有基因突变，适应环境的好基因被保留下来，一代代演进，好的东西越留越多、不好的越来越少。我们每一轮训出来的模型，有很多是残次品，但通过仿真、通过道路测试，我能选出有 “好基因” 的那几个，让它们再往下走、再加新的特征和数据，继续挑出好的。

这也是为什么基建的能力这么重要。基建就像一个厨房：你得有好的炉灶、好的炒菜工具、好的锅和勺子，才能同时快速炒出很多个菜，快速尝出哪个配方好。再具体一点，数据处理、生产那套工具链就像在厨房里切菜备菜——你得有足够多的原料、切菜备菜的速度够快，整个炒菜周期就快；训练的 infra、对算力的使用能力，就是有没有猛火、有没有好的专用厨师。

这些基建能力和快速迭代沉淀下来的数据配方，不是靠几个人带走几段代码和配方就能复制到另一家公司。

晚点：端到端之后，智驾自研的门槛到底是变高了，还是变低了？

陶吉：这要看门槛怎么定义了。如果把 “需要足够多会写复杂代码和规则的人” 当成门槛，那门槛确实降低了，但端到端的门槛是刚刚说的数据基建能力，这背后是一整套体系能力，需要有好的组织和团队融合来支撑，无法轻松复制。我们把整套数据闭环系统和底层云平台打通，就花了至少一年时间，而这还只是基础，还需要做大量实验科学来迭代完善。

晚点：今天大家都在强调的仿真世界模型，它具体能起多大作用？

陶吉：今天仿真世界模型的能力还是被吹得太高了，我了解的实际作用没那么大。一段式没有结构化的感知作为中间结果，是原始传感器画面直接丢给模型。你每改一次模型、车的行为一变，车看到的视角也跟着变了，这时候你得在仿真中同步重构一个新视角下的画面来测试验证，这就是世界模型的一部分应用方向。

它现在的问题还是，视角变化大了，画面重构就跟不上，只能在不变的视角下前后移动，所以只能对纵向行为做闭环——比如验证车能不能及时、柔和地减速、刹停，可一旦涉及变道、转弯这种横向大角度偏移，它跟实车结果的差异还是很大。

坦白说，今天的算法测试方法还是比较原始，以开环仿真为主，再加实车测试。

晚点：有 Robotaxi 公司用积累的数据训练一段式端到端，效果很好。你们怎么看 Robotaxi 数据的价值？

陶吉：我们最近跟做 Robotaxi 的同行交流过。他们证明了用 Robotaxi 的规则数据训练一段式端到端非常有用。以前我会觉得这不合适，因为那是规则写的，去学规则，不就把上限锁死了吗？

实际上 Robotaxi 数据质量非常高，很干净，而且因为都装了 360 度激光雷达，采回来的障碍物都带真值（ground truth）标注，模型能学到对环境很好的表达。而我们不可能给那么多车都装 360 度激光雷达去扫、去标，只能靠自动化标注。恰恰现在自动化标注的准确率还不算很高，质量参差不齐。

用 Robotaxi 数据跑出来的行为一致性很高，经过一层模型的学习后，动作也变得更柔和、平滑，因为模型做不了突变的动作，输出一定是连续的。再加上一部分人开的数据来微调，就用了比较小的资源做到了比较好的效果。

现在，我们也在尝试把小量特定场景数据加到模型里，看有没有帮助，但也不必完全复刻别人，毕竟大家各有基因。重要的是要保持开放、多尝试。

晚点：如果雇佣数百个好司机，采集他们的开车数据，是否也能接近 Robotaxi 的一致性？

陶吉：替代不了。一是没有激光雷达的真值；二是保证不了他们开车的动作一样、风格一样，我们交代司机一定要遵守交通规则，他们就慢慢开，这样采集回来的都是低速数据，没有超速和乱变道，但效率也没有了。后来我们跟网约车平台合作，用几百台网约车来采数据，效率起来了，但乱开、压线的比例又高了，好不容易筛了一轮数据后，又发现司机在不该休息的时候休息了、在路边停着，模型都会把这些行为学进来，所以很难办——Robotaxi 就不会无缘无故在路边停着。

只要人对、方向对，做出来是早晚的事

晚点：之前业内也陆续有人才加入传统主机厂干智驾，但很多人都没有成功，你犹豫和担心过吗？

陶吉：有些朋友觉得，我胆子挺大的。他们比较担心，我去一个陌生而且不是世俗认知里有这方面基因的传统车企，会很难适应。过去从互联网到汽车行业的人，有些落地都做得不是特别好，更不用说在央国企的难度了。

传统主机厂从外部招来的人才，通常会被当做专家，是行政领导旁边的一个顾问——解决不了问题时来问你，但责任主体还是自己的人。但长安不一样，我来了第一天就拿到了实权，给资源、搭团队、全程为智驾负全责。

晚点：刚刚你说了，这是个百亿规模的投入，在长安属于什么级别？

陶吉：长安历史上规模最大的战略投资项目之一，直到今天也是。

晚点：你怎么说服长安的管理层在一个项目上花这么多钱？

陶吉：其实没有特别说服的过程，只是把道理和同行的情况展示清楚。当时朱董（长安汽车董事长朱华荣）甚至还在问：这够不够？是不是太少了？长安既然要做，就要做成。

晚点：担不担心立项之后，万一做不出来被追责、被卡预算？

陶吉：我观察，其他地方立项困难，更多是没想清楚要不要做，外部噪音很多，内部对团队的信任又不够，就会反复质疑、反复让你论证——说白了是最高决策层不够笃定。

长安是真的想清楚要干，团队也让他们看到是值得托付的。朱董一直说，做不做得出来，最终责任是他来背。还有高层跟我开玩笑地说：做不出来你还想走？你就得跟我一直做。其实是变相安定团队，让大家别担心，这个事我们会一直做下去。

晚点：他没有说 “做不出来你就走”。

陶吉：对，所以没有 “做不出来就把你怎么样” 这回事。

晚点：他们还给你什么保证？让你可以大体上按照你的想法去做事？

陶吉：我现在有一个总裁助理的行政职称，长安也给智能化板块设计了一个公司叫长安科技，作为 “特区” 做机制的市场化，智驾的签审权、流程都在我这。

晚点：民营企业可以用高薪和股权来招人、激励员工，但央国企这方面有客观限制，怎么办？

陶吉：央国企有当期经营目标实现、工资总额等压力，还得充分考虑内外部公平性的问题。长安给了我一个总的工资池子，让我自己看着来，要招到优秀的人才，又要充分调动原有的人才池。我定了一个 1:4:N 的比例，即每个方向都有 1 个能定大方向的人，4 个聪明的、跟他同频并且有过相关经验的人，他们都有一定级别、薪酬基本能跟市场匹配；N 则是这个池子里的基数，大多是原来主机厂内部招的人，有了方向和指引之后做执行。

据我所知，有些央国企希望通过引入几名行业头部人才来开展自研，我觉得可行性不高。智驾是一个非常庞大的系统工程，想靠几个人把所有人都教会、带起来不现实。到了 24 年下半年转型做端到端，人才画像变了，我们要找的人未必对传统自动驾驶那套特别熟悉，但需要对模型、对数据、对天然用 scaling 的方式做事有直觉。

我们早期招人挺顺利的，关键岗位都缺人，可以吸引一批在原来公司没法按照自己技术理念做事、或者想负责更大范围的人才。这些负责人绝大多数都是过去共事过，或者熟人非常信任推荐的，聚起来比较快。

晚点：你们做端到端时，智驾的变化、进展都挺快，没多久 VLA 就量产上车了，这些对你有影响吗？

陶吉：我不是一个容易被诱惑的人，还是喜欢正向去想：到底需不需要这个技术来做事。

VLA 和再往前的 VLM，这套理念我们很早就讲了：24 年的长安科技生态大会上，我就提过 “全模态的输入、全模态的输出”——整车应该是一个完整的智能体（agent），能接收摄像头、导航、语音、车内传感器、座舱交互等各种输入并理解，输出也应该是多样的，包括驾驶行为、语言交互反馈或者车内打开车窗之类的适时控制。理想情况下是用一个大一统模型来做，类似 VLA 或者今天大家所说的基模（Foundation model），从云端蒸馏到车端，只是真正的工程化落地没那么理想。

技术还是为了解决问题，不能为了用而用，今天我还没看到行业有哪家公司的 VLA 完整证明它的驾驶能力超过了端到端的上限。我们内部也有个小团队在做纯 VLA 驾驶，展现的潜力还可以，但我们暂时还不会大规模转过去，得先看到有先例证明它能突破更高的天花板。

产品上，要实现类多模态输入输出的效果，方法有很多种，未必非叫 VLA，只要用户觉得好用就行，我们今天也能用语音来跟智驾交互，花样很多，但有些是真需求，有些可能是伪需求，内部也一直在辩论。

晚点：你们现在预研的 VLA，具体表现如何？

陶吉：特点是大脑比较聪明、小脑有点缺陷。它的绕障时机、跟动态障碍物交互、选道的准确性，更像人、更有思维感；但在横向纵向的稳定性、速度合理性上还有不足，离端到端纯模仿学习的水平还有差距。背后的原因我很难用理论解释，更多是实验科学。

晚点：听下来，长安的策略还是在跟随，而不是通过走一条新的路来实现弯道超车？

陶吉：以长安的人才储备和基础设施，不太适合第一个探索完全 “无人区”，这需要踩很多坑，资源消耗可能要达到第二、第三名的一个数量级以上。我们需要弯道超车，但实现方式是找一条能让我们进第一梯队，同时投入又相对可控的路径，不是纯技术逻辑驱动。我也不是一个纯技术负责人，需要综合考虑很多因素。今天大家讲了很多 buzzwords（热词），结果跑得最好的不是讲最多的那家，那这时候就需要冷静思考一下了。

我们不到一年量产高速 NOA，一年半到今天准备城区 NOA 的量产，放到整个行业来看，还算比较快，因为这里面包含了构建团队、重新搭基建的过程。其他公司过去在数据和基建的储备上比较完善，做起来会更快一些，长安能做到这个进度，还是不容易的。

晚点：这是你们作为追赶者必须要做的取舍，还有别的关键点吗？

陶吉：大方向不要错，按正确的方法来做事。首先 “我” 得对，“我” 才能带来一批对的人和对的组织文化。如果组织的目标明确、能够很好协同，公司也愿意投入足够的资源，这是水到渠成的事，可能早几个月、晚几个月，但必定会往这个方向走。

晚点：去年你们喊 “全民智驾”，量产和下放并行做，你们压力大吗？

陶吉：挺大的，但现在有个好处，端到端之后，模型的迁移裁剪比原来那么复杂的软件栈容易多了，只要掌握了模型裁剪、量化、部署的这套能力，这件事就变成一个工程化的迁移动作。如果同一套模型可以同时在 500 TOPS 和 100 TOPS 算力芯片上跑通，那么中间再加 200、400 就会比较顺畅。就像大语言模型，一发就是从 2B（2 亿参数量）到 7B 到几十、几百 B 都有。

晚点：进入数据驱动之后，每年需要的训练费用不降反增，未来怎么保障这块的投入？

陶吉：是，AI 研发完一代，还有下一代、下下一代，每年都是一样的规模投入。朱董昨天也正好在会议上提到，要学会接受和了解这种新模式，AI 不像过去发动机、电池，开发完一代以后就不用持续投入更多。所以长安要聪明地解决资金来源，聪明地把每一代研发的能力外溢做好，首先内部搭载量要上来、规模化分摊，同时要外溢到其他相关领域，撬动社会资源创造更多价值。

把智驾做成生意，比做出来更难

晚点：你在百度从 0 到 1 做过无人车，之前也创业过，人的选择、组织搭建、工具链和产品开发，这些是在你的舒适区之内吗？

陶吉：这些都还在我的认知范围内。但做完这些不代表就成了，单是技术研发的过程就非常坎坷和耗费心力，我过去也没做过端到端，我也要跟大家一起往前，不断学习、提升认知。你看头发也白了不少。

团队整个状态有点像坐过山车，前一天某个能力突然提升了还在狂喜，第二天泛化一下，发现还有很多问题又狂悲，所以大家说不要 “狼来了”。改善要经过相对漫长的时间。

晚点：还好，白头发看不太出来，看着还是挺年轻的。技术之外，超出你认知的是什么？

陶吉：前面讲过，我不只是技术负责人。除了技术方向的选择，资源怎么分配，用什么硬件载体来搭自研方案，智驾之后往哪走，整车智能的含义，产品定义，还有怎么做车型最愿意买单的方案，这些都是我要考虑的。

长安最开始看待高阶智驾、城区 NOA 就像 “白月光”，想达到最高点。我们去做了，但做完之后发现平台太贵了，没有车型愿意搭，这时大家变得格外现实，又要好又要便宜。我们跟新势力不一样，新势力早期只做高配的研发，中低配都交给供应商了，相对聚焦，不走商业闭环的逻辑，而是想通过自研把高阶的品牌立起来，带动股价上涨，股价可以用来补贴研发。

但长安作为央国企不能只看资本市场表现，更要看成本和效益。

长安的车型跨度大，从不到 10 万到 30 万都有，所以希望自研团队可以从 5 TOPS 平台一直做到 1000 TOPS，方便不同价位车型搭载，但这肯定不行，行业内没有任何一家车企、供应商会做跨度这么大的方案，大家都是专攻一段。这时候我要做取舍，到底应该选什么样的平台货架才能规模化搭载、分摊团队投入，这是这两年在技术之外一直思考的事情。

晚点：我们很少会和智驾负责人聊到货架搭配。

陶吉：我之前做 L4 确实不太关注这些，怎么把生意做成，是我到主机厂后才逐渐关注的，因为经常被要求做证明题，训模型太花钱了，这些投入稍微抖一抖，可能整个公司利润都上升好多。朱董坚持我们要自己干，但同时也要想怎样可以少花点钱。

晚点：很多人觉得，更好的智驾体验需要一颗更对路的自研芯片，你怎么看？

陶吉：我觉得今天不需要，在走到真正跨域融合的整车 AI 之前，市面上给智驾、座舱用的芯片已经足够成熟，今天主流的算子库是相对明确的，底层依然是基于 Transformer 架构，已经应用了很多年，并没有出现技术突变。芯片供应商也一直在跟进行业的技术演变，比如 4、5 年前设计的英伟达 Thor 芯片带宽还只有 270G，随着模型越来越大，最近的智驾芯片带宽已经达到了 500G，并不存在 “只有主机厂自己知道、而供应商看不到” 的算法洞察。

今天所谓的舱驾一体芯片更多还是基于降本需求，两个域控合为一个以后，节省了周边元器件、供电、线束，但在内部还是一分为二、硬隔离在用，智驾跑智驾，座舱跑座舱。未来如果真的实现了多脑合一，需要的芯片跟现有的在定义和规格上有巨大差异，那才需要自己来做芯片。

我们内部也争论过要不要自研芯片，理由无非是两个：一是软硬垂直整合做优化，特斯拉是典型案例，但在现实中，芯片供应商用自己的芯片都没有外部方案商用得彻底，这不是技术原理问题，而是组织专注度的问题；二是不同车型的 BOM（物料清单）都能统一、集量降本，但以单一主机厂的搭载量，很难实现真正的成本分摊，降本空间有限。

我觉得，如果能把模型跨算力、跨芯片的裁剪做得成本足够低，这才是今天最大的芯片自由，因为行业现在已经有不同供应商出不同算力的芯片，市场不再被垄断，选项变多了，如果能做到芯片自由，就有很大的议价权，帮助降本。

这也能相对解决我们不知道怎么做货架搭配的烦恼。用户到底喜欢高性价比的中算力方案，还是更贵、性能也更好的高算力方案，过去很令我们纠结，因为一旦做多了就做不过来，但如果芯片自由了，货架搭配就会很灵活，可以等市场信号相对明确之后再定平台。所以对我们来说，今天更值得在芯片自由上发力。

晚点：智驾对消费者买车的决策影响有多大一直存疑，尤其在 15 万以下的市场，你们看到的真实情况是怎样的？

陶吉：我们做过门店调研，有 80% 的用户会主动追问智驾，有些人会说 “我用不用你别管，你最好得有。” 我觉得主流用户已经在门口敲门了，但跨进门的那一下还需要助力。

我们今年就想解决这个问题，让长安的用户从不了解、不相信、不敢用到敢用。我们开始在各地门店放大屏开属地直播，不是老板偶尔试驾，而是播当地真实的智驾测试，有接管也照样播，让用户看到智驾在哪些场景可以、哪些场景不可以，以及 OTA 之后发生的变化。在这个过程中，用户会有参与感和掌控感，对智驾的能力边界有更清晰的认知，不把它当全能也不当无能。

这个方法也能解决我们的销售问题。我们的销售前期对智驾很不自信，从来不会主动介绍，反而抱着 “你最好别问我智驾，也别让我带你试驾” 的态度。我们在门店直播也是想先让销售更有信心，再让他们把智驾讲出去。

晚点：今天智驾基本都 good enough 了，你们的产品特点是什么？

陶吉：首先是安全。作为央企，责任担当是放在第一位的，要教用户正确使用产品，使用过程中如果出现问题，也要及时响应负责。再往上一层是 “心理安全”：车要开得更像老司机，不能突然踩一脚急刹、让人成天提心吊胆，要让人放心去用。这也是当初选择端到端的一个理由，这条路能走向真正好用的智驾，而不是过去的简单可用。还有一层是 “情感安全”，车成为伙伴，能让你时刻感觉到被照顾，也能掌控它，当它做得不好，可以让它改，所以我们要做交互式智驾。

你们也试过了，我们现在的方案还需要打磨，有些场景要在体感跟安全之间做权衡、取舍，量产时还是要先解决安全问题，再尽最大努力用算法打磨体验。

晚点：昨天我们试车，超车前我们那台车自动闪一下远光，有点出乎意料，这是你们的某种产品小巧思吗？

陶吉：算是吧，这类动作今天还是靠产品经理的小巧思，但我觉得未来可以靠数据驱动来找到用户真正的痛点场景。端到端驾驶实际上是模仿人类司机的驾驶行为，未来的整车智能也可用类似途径实现，训练数据变成 “整车片段”，而不只是 “驾驶片段”，把驾驶数据、交互数据——人说了什么话、跟车机做了什么互动、按了什么按钮这些脱敏后的数据进行系统分析，发掘用户的真需求。

晚点：现在消费者愿意用智驾了，但还不愿意为智驾付费。

陶吉：商业化是现在行业面临的最大难题，不管主机厂、供应商都活得很苦：在主机厂的被拷问为什么要自己做、不用供应商的？在供应商的被拷问，主机厂给的收入那么少，为什么还要去 “跪舔”？工程师都很苦，归根结底还是行业投入大、收入少，而收入的源头是用户。

我最近一年也在琢磨，对 L2 来说，保险可能是一条出路。智驾降低了事故率、提高了道路交通的综合安全性，这本身跟保险相关，那保险为什么不能跟这些数据联动起来？之前也有政府想和我们做一个示范合作，希望把数据放在区块链上，来证明智驾跑出来的事故率是真的，这样保险公司就能采信、联动降保费。

放权基因、组织磨合与 “失意者联盟”

晚点：这几年一批主机厂孵化的智驾自研团队已经退出，长安为什么执着于自研？

陶吉：一家有野心的主机厂，下半场不做智能化，还能做什么？将来汽车一定会跨域融合，统一成一个 “大脑”、一个 agent，今天的舱驾、底盘、热管理……都还是分散在各自的小控制器里，只跑一些智能化的小程序，没法联动产生化学反应，这些跨域的数据将来在训练阶段就得放在一起，就像人一样由一个大脑来综合判断。主机厂来做这件事很顺，但前提是你得有底下那套能力。

这套能力的核心就是数据闭环：把车辆运行产生的数据拿回来，变成模型进化的燃料。它是水面之下的冰山，比水面上看到的结果更重要。一段式端到端其实是数据驱动的范式变革，infra 跟不上、这波没赶上，就进不到这个范式，也就没有下一个阶段。

朱董一直在讲 “无 AI 不长安”，这个指导方向要落地，需要长安每一层领导都真正认识到 AI 的力量。把智驾自研干成的过程，本身就是一次启蒙，带动整个长安的思维方式也跟着转过来。对长安这样的央企，还多一层责任——智能化和产业链安全深度绑定，必须要有一个自主可控的本土产业平台，掌握关键核心技术。

自研也有现实的好处，比如 OTA 频率能提上来。供应商不可能只为一家车企做 OTA，得等它的大版本，自研之后，我们可以做得更快，用户看到了进化的过程，情绪价值也有了。

晚点：3 年前你离开千挂可以去新势力或者智驾公司继续做自动驾驶，也可以转投具身智能创业，但你都没有选这些看起来更主流的路。

陶吉：我之前也从未想过会去长安。23 年中，我已经拿到机器人创业的种子轮融资。当时有几家主机厂邀请我，我想着可以去看一看、了解了解。转了一圈之后，我被长安打动了。

他们带我到每层楼看了他们的团队和工位，和我之前的刻板印象不同，大家讨论的氛围跟科技公司很像，也非常开放，每到一层随机抓个骨干来跟我聊技术细节。智驾不管做得好不好，都带我去试驾，而且实际超出我的预期。长安在地平线 J3（5 TOPS）平台上自研规控做了高速 NOA，规控是有积累的。

他们知道我想做机器人，也理解我的想法，因为他们也认为汽车技术未来一定会外溢到具身智能。他们没有讲 “我们的好，其他的不好”，反而说得很诚恳：今天做车、做智驾很卷，我们很需要一个 “堂主” 来带着我们把这一关走好，帮长安上一个台阶，你先过来跟我们一起度过眼前的苟且，我们再一起奔赴诗和远方、一起干具身智能。我听了挺感动的，愿意相信他们。

长安也说到做到了，几乎每次开高管会议或战略会都会提到具身智能，能感觉到这个词真的进了长安，不是随口一说，我觉得他们是认真的。

晚点：你愿意相信长安，但长安为什么在一开始就那么信任你，让你统管人工智能相关业务？

陶吉：我也是后来才知道，长安当时为了找到合适的人负责智驾，几乎把国内这个圈子的人都聊了一遍，花了一两年时间，从各个视角了解候选人，不只看 title，还要找到气质和想法最吻合的人。我们在前期沟通中，就已经有共鸣和默契——干成这件事一定要有足够的授权。

这其实也是长安的基因。早期长安从兵器制造转型做车，先从微车开始，后来转做乘用车，每一步都走得艰难。西南远离发达地区，离头部供应商也远，没有人支持，也没有经验、没有技术，长安从那个时候就学会自力更生，危机感很强。

他们转型做乘用车，是上一代从美国底特律回来的汽车人带着从头开始建设，所以他们有充分尊重、信任、授权外部专家的传统。也只有在长安，我看到过一个叫 “专家服务办公室” 的部门，专门负责全方位服务外部招聘的专家。早年的服务非常夸张，回国的专家带着家人一起定居重庆，他们帮人把房子安排好，当时屋外还比较荒凉，晚上有青蛙的叫声，专家说睡不好，他们就带队去抓青蛙。现在那个部门的人跟我们在北京、上海的智驾员工都很熟。

晚点：但现在和 3 年前不同，智驾行业的吸引力已经大打折扣。猎头跟我们说，智驾 offer 在候选人心中的排位很靠后，大家都优先去大模型和具身智能公司。

陶吉：对，我们看到毕业两三年的人跳去具身智能和大模型，一般能拿到非常不错的薪资涨幅，对我们招人的挑战很大，整个智驾行业都一样。

尤其我们才刚刚做出成绩，对外的宣传不够，“酒香也怕巷子深”，我希望大家这次可以闻到在长安这里也有一坛 “好酒”。我们团队各个负责人的背景真的还挺好的，可以带着大家一起做很多不一样的事情。

晚点：比如，物理 AI？

陶吉：我想起个和物理 AI 不同的名字，叫行动 AI，更强调在物理世界的决策和执行，我们未来也要朝这个方向走。自动驾驶积累的能力，一定会外溢到整车的智能，走向移动物体、移动载具、移动工具的智能，再走向整个物理世界。

长安有央国企的势能，还有基盘销量带来的量产数据优势。今天各家都还没有真正开始 PK 这个板块，大多数都还处于靠测试车采集数据来启动的阶段，我们有稳定的基盘业务，可以持续提供燃料去迭代。

晚点：招人只是一方面，你要怎么留住内部的人才？

陶吉：早期从信任网络进来的核心骨干，还是有使命愿景驱动的，大家是真的想把这件事干成。他们决定了团队的调性。其实碰到一个能跟主机厂原有团队融合得比较好、大家目标也比较一致、能干事的团队，挺难得的，很多人过去在别的地方想干，但没干成，都是有过创伤体质的，包括我自己。

晚点：所以你们是 “失意者联盟”？

陶吉：开玩笑的说法，也算是吧（笑）。我觉得挺好的，“失意” 代表你想做成一件事，如果这个地方的土壤恰好适合，那 “失意者联盟” 就变成了真正有战斗力的团队。人能不能做成事，跟土壤的契合度有一定关系。但干成之后，也得持续让大家看到未来，所以我们要向外融资、机制灵活化，这样才能保持团队的长期稳定性。

晚点：你从千挂的经历学到了什么？

陶吉：创业怎么玩、VC 是什么，还有人性的复杂、组织融合的重要性。当时千挂内部组织派系分裂，作为 CEO 就应该杀伐果断，该强势就强势、该压制噪音就压制，不能让下面的人拉帮结派搞斗争、搞内耗，要找到一个共同的价值观和目标去凝聚不同文化背景的人。所以来到长安之后，我特别强调组织的融合，不管是工程团队还是算法团队，从外部引进的还是长安本土的，我都一视同仁，该批评就批评，该做决策就做决策。

我在办公桌上放了一个游戏机，有两个手柄。我有时候会跟互相吵架的团队开玩笑，让他们实在不行，就来我这打一把拳皇，谁赢了听谁的。当然没真这么用过，但得引导大家互相理解对方的视角和可取的地方，我再及时公正地决策。

晚点：你的团队分散在重庆、北京、上海三个地方，异地办公给组织融合带来的阻碍大吗？

陶吉：所以我们不是按地域来划分职责，比如北京只负责算法，重庆只负责工程，我们是按方向划分，方向负责人要跨三地管理自己的团队，用 1:4:N 的架构把能力往下传，虽然负责人比较辛苦，要多地跑，但北京、上海先进的能力可以辐射到重庆，带领重庆团队一起做。这套方式目前看来比较适合长安的基因，内外部融合的效果还可以。

当然也还有提升空间，我们要多把两边的同学聚到重庆，只有我一个人感受到长安对人才的包容、欣赏它过去的历史和精神，是不够的，要让大家都建立共同的感受。我们现在最核心的骨干至少有一半的工作时间都在重庆出差，要多在一块讨论、一起上车、形成共识。

晚点：长安给你们提供了怎样的环境？

陶吉：长安自己培养起来的人对公司有很高的忠诚度，很多员工从祖辈开始就在长安工作了。虽然他们也会互相吵架，但一旦涉及公司的大方向，就会非常团结。比如从外部来了一批收入很高的人，他们也会有不平衡，但在大是大非面前，只有这样才能干出来，他们是能接受的，而且执行力非常强，定了哪个方向就说一不二地干。

我们的理念相近，长安的 SDA 项目，是想做一个 “类人” 的架构——用最低的延迟、最鲁棒的连接把每个末端传感器跟中央大脑连接起来，虽然表述不同，但跟机器人说的是同一件事。

晚点：你最近学到的新知是什么？

陶吉：我最近有新的思考，今天无论是端到端、VLA 还是世界模型，都还学不会推测人的意图。比如人在开车时有个 “社交准则”：交替通行——如果我已经连续让了两次路，后面的车也不好意思再挤了，会主动先让我过。这是灵长类动物之后才开始有的能力——理解别人为什么要这样行动，以及我行动之后别人会怎么解读我的动作。

我觉得这种对人的意图推测，应该有一个跟世界模型并列的模型，世界模型是对物理规律的刻画、演化的推测，这个模型则是对智能体与智能体之间意图的演化和推测，它俩要合到一块，才是一个完整的真实世界。

晚点：这个智能体意图推测模型应该怎么训？

陶吉：这是好问题，我们内部有一个小团队在调研，现在讲还太早了，研究还没有成型。

晚点：你是百度自动驾驶最早的成员之一，见证过这个行业最辉煌的时刻，但现在更多人在逃离这里。

陶吉：2016 年我们在百度开视频周会，国内会议室坐了一排人，有李震宇（它石智航创始人），屏幕那边也坐着在美研的一排人，有韩旭（文远知行 CEO）、彭军（小马智行 CEO）、鲍君威（图达通 CEO）...... 都是后来的明星公司 CEO，自动驾驶当时吸引了最顶尖的人才。

当年这群人基本都还在行业里，但是智驾太卷了，看不到上升空间，离开的人确实不少，我身边很多小伙伴都失望了，互相开玩笑劝对方别干了，很多人跳去了具身智能行业。

我也想过去具身创业，但理性判断之后，觉得具身目前的技术路径和产品形态都还不清晰，商业化周期也特别漫长，需要融到足够多的资金才能撑过泡沫之后的冷静期。那就不如继续在车上发力，我干这行 13 年了，这个行业还是不错的，一直都排在各个垂直行业的前面，只不过今天大模型和机器人更火。

晚点：13 年来都在干智驾，你是一个善于坚守的人吗？

陶吉：我可能比较慢吧，惯性比较重，自动驾驶是我最开始选择做的一件事，肯定希望能走到终点。2013 年，我们在百度刚开始做无人车，内部就在说，为什么最聪明的人都去大厂贴广告了？我们当时很愤青，觉得这不对，那时就埋下了做物理 AI 的种子，自动驾驶在今天依然是实现物理 AI 最快、也最有希望的领域。

李安琪对本文亦有贡献。

题图来源：长安科技