长城汽车佘士东详解长城智能化：如何打造整车智能体？|人机交互|佘士东|整车智能体|超级智能体|长城智能化|长城汽车

4月11日，由车百会研究院主办的智能电动汽车发展高层论坛（2026）在国家会议中心二期召开。

作为本次论坛的重磅环节，高层论坛上午场以“推进新能源汽车智能化、绿色化、融合化、国际化发展”为主题，下午场以“探索产业新发展模式培育汽车新质竞争力”为主题，汇聚了来自政府、汽车、能源、交通、科技等多个领域的代表，共同探讨汽车产业发展趋势。

在论坛期间，长城汽车智能化产品副总经理佘士东接受了媒体群访，他系统解读了长城汽车今年1月发布的全新整车平台“归元”，并阐释了长城在智能化方面的迭代与思考。

佘士东指出，归元不仅是多动力兼容的技术平台，更是长城从网联车向AI车转型的原生底座，具备一车多动力、全域自研、双大脑（智驾+座舱）等核心特征。

同时，佘士东透露，长城已布局七八年的自研智驾方案即将上车。

佘士东指出，算法并不是整个智驾工程最难的部分，恰恰相反，这部分的能力“可能也就是值1—2亿”，而包括数据在内的全链路打通，以及各环节之间的协同性，才是智驾里面最难的部分。

而长城在智驾方案上总体会采取“自研+外采”两种方式并行的策略，具体来看，旗舰车型将采用深入自研的智驾方案，另一块100T-200T之间的“普惠智能，后续也会完全替换为自研，但是在“头部”和“胸部”的位置，仍然会开放接受行业里比较好的解决方案。

他还提出，下一代AI汽车将不再依赖预设的人机交互规则，而是通过整车智能体实现“相识、相知、相爱、相伴”的主动服务体验。

以下是媒体与佘士东对话内容（有删节）：

未来两三年，陆续实现整车智能体化

媒体：今年1月份，长城汽车正式公布了全新的一车多动能整车平台，命名为归元，这一平台是如何支撑全场景智能目标的？您认为到了2030年，电动汽车智能化将呈现哪些趋势？

佘士东：归元平台在长城汽车内部解读的时候不只是一套技术平台，它是一套设计整车理念。

大家都知道，现在车型的纯新能源化，或者纯电化跟燃油车逐渐平权，包括国内车型逐渐出海，所以在全球市场来看，多动力平台，不论是插混、纯电、燃油，甚至是柴油，还有普通混动，全球市场因为用车场景不同，环境不同，所以它们是有综合的需求。

而现在来看，整车不论是舒适系统，还是上车体系以及安全开发都是可以高度复用，但恰恰是动力这个内容是有一定的区域差异性，包括使用场景上的差异性，这是一个设计整车的理念。

在这个理念里面，一方面考虑一车多动力、一车多平台，同时也考虑向下兼容，或者我们是把它作为一个重要的，由原来的网联车向AI车转变的一个新平台，也是对应打造了原生AI的一套系统。

它是从最底下的执行器到上面的电子电气神经网络，包括双VLA两个算力的域，智驾算力域和座舱算力域，基本可以拉到1000T左右的情况，用来支撑我们认为的下一代AI汽车。

2030年在我们看来，其实就在眼前，因为我们现在规划部分的车型上市时间可能就已经是2028年、2029年的时间点，从这个时间点倒过来看，其实对于多动力应该是一个普遍需求，它不再是过去5—10年更多是新能源快速生长的过程，但我们现在越来越多地看到全球化的市场对不同动力的差异化应该是个普遍需求。

第二个，我们对于整车AI的理解，它不再是一个单纯的人机一套交互系统，不论是驾驶过程中的人的方向盘，或者油门、刹车交互过程，还是人对座舱的生态和功能的交互系统，其实都会智能体化，它是以一个整车智能体作为中介来服务给客户的，用户跟智能体之间的关系就会退化为只是自然对话和主动服务这两种形态。

我们认为，归元这个平台一方面是一车多动力，第二个，它一定是有极强的端侧的算力支撑。

我们认为，下一代智能体化的汽车目标，这不用等到特别远的2030年，今年长城也推出来了比较前瞻的一款车型，它已经完成了部分的智能体化，推出了司机智能体和座舱智能体这两个核心智能体。

明年我们陆续推出的这些车型里面会搭载更多的垂域智能体，我们相信也就是两三年的时间，整车智能体化这个目标应该是非常明确的。

从智驾上我们也能看到，长城的车通过两年时间，快速把NOA用户黏性从个位数提升到30%多，这其实也是一个快速变成日常普及使用的过程。

全栈架构，天然实现跨域调动

媒体：归元平台的原生AI特性是怎么体现在智能驾驶与座舱融合中的？与传统平台相比，在一些算力分配和数据流通上有哪些和过去相比特别大的变化？

佘士东：我们在做这个原生平台时候是两个方向。

第一个方向是自底向上全栈的，可能有一些了解长城汽车的，我们的动力、电池、转向等等自研率是非常高的，我们有精工、蜂巢、诺博来实现整个执行层全栈的自研，再往上就是神经网络，这套架构也是面向原生AI，支持SOA化、MCP化等等这些，也是可以实现全域的串联。

在这个过程中，我们发现车上三大核心执行部件，主要是动力底盘、辅助驾驶、上车体，上车体也就是用户能感觉到舒适的这类系统，所谓泛座舱的功能，这些已经全面完成能力化封装。

在这上面我们布置两个大脑，一个左脑，一个右脑，左脑更多为了实现智驾这部分，是采用了最新的英伟达Thor芯片，700多T的算力，智驾里面采用了VLA大模型的解决方案；

右脑这部分是采用了高通比较领先的芯片，也是有端侧的模型部署，在座舱里我们也是首先提出了第一个行业空间VLA模型。

它的核心特征就是能够感知舱里面的情况，能够认识车上的每个人，能够了解场景，并且用生成式的方式推导出来场景，主动服务，而不像以前一样，都是产品经理编排的规则，在这种情况下，整个车的这两个脑子已经具备了。

最顶部就是我们希望打造给用户一个智能体的体验，小魏同学是我们打造的一个新的IP，当然它的形象是采用咖啡智能延续下来的咖啡豆的形象，用这样的方式自底向上实现了一个全栈的AI化，而不再像以前一样，买的是动力底盘，买的是智驾功能，买的是座舱的座椅等等。

我们认为，下一代的车一定是一个自底向上全链路的体验，我不能只是买了一个座椅各种按摩功能、空调功能，它一定是能够符合用户最终体验的一套解决方案，而这套体验的用户触点就是智能体化的方式。

从横向上来说，这里面涉及到很多层面的打通。

当然，因为整个自研比例是比较高的，所以我们对于全域的控制器基本都是可以实现自主可控的，它并不是一个需要采购外部的转向控制器，再跟它做协议开通，而是我们在开发设计转向系统时已经完成了AI化的能力释放，在整个过程中，开发的起点就已经是奔着要开放给上层的AI来使用，而不是做横向的互联来打通。

以前可能因为垂直的“烟囱效应”，大家各做各的，动力做动力的，底盘做底盘的，智驾做智驾的，除非为了实现某些功能不得不打通时才会做横向拉通。

但是我们现在这套全栈架构，是天然把自己能力化，因为这是一个进入归元平台的准入门槛，一旦进入归元平台之后，它们天然实现了互相被调用的能力，而且有两个端侧算力大脑在统一调度它们，而不是它们只是做横向功能的对接。

智驾方案，自研与外采并行

媒体：市场有消息说长城自研的智驾方案可能会在今年上车，现在这个方案到了哪一个阶段？另外，与蓝山车型搭载的一些方案相比我们会有哪些自研特色？

佘士东：对外传播的时候大家都会截取关键性的节点，其实长城智驾的自研已经做了七八年，不是从现在才开始，整个过程长城也一直在自研和供应商协同的路上推进。

因为整个智驾的自研不是简单地说车上的零部件，车上的传感器，或者是算法这些东西，它是一个系统性的解决方案，包括部分数据、数据的标注、数据的清洗以及数据对于模型本身的训练，以及里面对于模型本身的检测或者是评价等等，这些都是智驾工程里非常重要的部分。

前期的时候，涉及到对于技术路线的选择，大家都知道，从最早的前端感知融合BEV到后面Transformer出现了多段式、一段式，包括现在的VLA模型的采用，我们认为核心的算法其实并不是整个智驾工程里面最难的那部分。

恰恰相反，这部分的能力从行业里面来看，可能也就是值1—2亿，而整个全链路的打通，包括它们之间的协同性，这才是真正智驾里面最难的那一部分。

我们只是把核心的、大家能看到的最关键的算法也好，或者是这个链路，觉得好像是整个系统唯一的部分，我理解这可能是不太准确的。

本身在长城来看，我们可以使用同样的数据链路来训练不同智驾等级的智驾系统，因为长城也有六七万块钱的车，也有六七十万的车，不可能所有的车上都采用同样的智驾方案。

但是对于我们来说，工程链路以及数据训练链路是高度复用的，这个复用率已经接近80%、90%，但是它的核心算法依赖于端侧算力的部署情况，有几十T的，也有一百多T的，有两百多T的，有七百多T的，不可能算法是一样的，在这部分我们可能部分选择跟供应商合作，包括接受供应商一些好的建议。

对于长城两头的产品，一头的产品是旗舰级的，我们可能会后续采用深入自研，因为现在来看，端到端的体验不只是一个算法的端到端，而是要涉及到执行器的端到端，也就是我们的转向机构，我们的动力底盘这些东西是不是能纳入到整个算法模型里面一起参与训练，现在来看整个行业里面还是比较早期的一个阶段。

第二部分，我们叫普惠智能，基本是100T左右到200T之间的，能够实现非常可用以及部分高速场景高用的一套智驾解决方案，后续应该会完全替换为自研。

但是在头部和胸部的位置，仍然会开放去接受行业里面比较好的一些解决方案，来给我们的用户提供一些好的体验。

所以它不是一个完全替代的关系，而是逐渐渗透，并且把局部的算法也可以跟行业做共创的过程，就像我们现在合作的这些供应商，基本都不是完全供应商，或者完全自研化，它只是其中一个比例，包括他们之间合作切分的方式的差别。

智驾方案会进行不同的场景适配

媒体：您之前有一个非常生动的观点，说特斯拉的FSD像观光模式，坦克400如果太温柔用户反而会不满意。对于普通的消费者而言，智驾的性格是不是比单纯的能力上限更重要一些？长城是如何在这个独特的性格上面为智驾做一些努力的？

佘士东：进入智驾也好，包括座舱智能体进入深水区之后，我们发现人在产生一个重大变化——原来是人机交互，人跟机器之间的互动方式，但是现在有了中间这个智能体之后，人跟智能体变成了一个核心的关系，而忽略掉机器本身带来的这些差异。

这里面不论是刚才您提到的用车场景上的差异，还是本身功能和性能上带来的差异，都会被中间智能体抹掉，它会忽略掉你怎么样去完成A点到B点具体的过程，它会尽量地去保证这个智能体和这个机器，也就是我们所谓的行动能力等等之间的最优解。

比如不同的能源分配，比如纯电模式还是混动模式，其实智驾都要去做适应性的调整。

而这个过程要比我们所说的性格来得更早一些。

尤其是坦克的车型非常典型，他们对于这个车能够在智驾上的表现其实要远远低于用户在蓝山或者高山这种偏舒适型车型的需求。但是，它又有独特的场景，比如长距离穿越，比如路面有可能没有车道线，有可能稍微有一些起伏，我们怎么样让智驾在这个过程中更舒适，能够吸收掉穿越过程中的沙石路面带来的颠簸，这时候对于速度的追求是无感的。

我们也做了人因分析，发现用户完全不需要注意力介入模式，所谓观光模式可能是忽略时长，他多开了20分钟可能没有意识到，很轻松地度过这20分钟，在这种情况下，智能体和机器的协同会抹除掉不同场景的使用差异化，用户对于整个智能体就变成了“我怎么样舒适、我怎么样更轻松”这样的一个考量标准，而不是驾驶系统的性能、准确度等等，用户会忽略掉智驾在这个过程中出现的各种性能边界。

我们会尽量保证安全的情况下，会考虑更强的维度，比如更强调舒适，还是更强调效率，还是更强调对于不同用户场景的使用，其实是会被智能体吸收掉的，用更适合的方式跟用户做交互就好了，在这个过程中会并行发展。

长城会在明年推出专门针对越野车型和泛越野车型单独标定智驾系统，它会在智驾场景下辅助用户更好地做越野，或者是长途穿越这些体验。

但是这种情况下不是完全把车交给智驾系统了，智驾系统的感知，我们知道它对于纵向的感知要远远好过对于立体的感知，怎样解决道路的起伏、炮弹坑这些，我们是需要有新的解决方案出来的，这应该也会是行业的首创。

AI的马拉松，整车厂刚跑过发令枪

媒体：感觉座舱已经完全成了一个Agent，但是支撑这一代模型相较于上一代的Coffee OS3有什么进化，以及内部是什么时候开始这一轮的进化呢？

佘士东：Coffee OS3在它之前还有BUX，还有GUX，那时候统一叫Coffee OS，是没有版本号的概念的，核心设计理念是空间交互系统，从原来只服务于司机一个人的人机交互系统开始服务于车内每一个乘客。

典型的表现是开始有了副驾屏，开始有了多音区，开始有了后排电池、后排冰箱，有每个座椅平权，每个座椅都可以实现通风、按摩、加热等等的功能，Coffee OS3是我们认为满足车上每一个乘客需要的，在那个时代更多是解决用户怎么样更好地跟这个车完成一个交互。

对于下一代我们核心的来看，它最大的变化是大模型的内核级引入，也就是刚才提到的归元平台怎么原生来做这套系统。

在这个过程中，我们遇到的第一个困难就是端侧算力不足。我们知道，世界上主流的端侧算力在五六十T，部署一个模型就是部署零点几B的模型，它对于大语言的理解，包括对于场景的认知是严重不足的，跟我们日常使用的豆包、千问等等大模型完全不在一个智商层面，这种情况下我们怎么把这个大模型锁定到汽车域，是一个非常难的事情。

在Coffee OS3时代我们更多做垂域智能，它能够了解用户诉求，它能知道车上的功能，它完全是垂域能力。

我们希望在后面归元平台升级上，搭载超过300T算力的端侧模型，这种情况下可以做到毫秒级的感知。

我举一个最典型的场景，比如你开着车过了一个红绿灯，你问大模型我是不是闯红灯了，大模型会告诉你，这种我们就会发现，基于现有的这种瞬发式的请求是完全实现不了的，它需要端侧的大模型具有毫秒级的感知，并且通过大模型推理形成记忆，可以知道刚才有没有压线，他刚才这个车上的人都做了什么动作，孩子有没有伸手出去。

它对于端侧的感知能力和多模态感知能力是我们遇到的第二大困难，现在市面上看到的这些不论是VLA模型还是全模态模型，都没有解决空间大模型的诉求，我即使知道车上坐了3个人，但实际他们之间的空间关系我是不了解的，我只能在一个图片里面，左上角有一个人，右下角有一个人，但是他们之间距离是什么样，后排这个人能不能伸手把手里的咖啡递过去，这些在空间上是没有建模的。

在这个过程中智驾可能走得稍微靠前一些，智驾完成了对车外空间的建模，但是车内空间建模是我们现在重点突破的方向，这也是我们首先提出来行业座舱VLA这个概念之后，发现行业里面大家都快速地进入了一个困难期，只是能做视觉的感知和语言的理解，但是对于整个座舱内空间的建模其实行业里面，或者互联网领域，并没有看到特别成熟的方案，而这部分可能就得由主机厂自己来预训练这样的基座模型，来实现这些东西，这是我们遇到的第二个困难。

第三个困难，还是用户认知的变化，因为用户原来可能更多的还是接受屏幕也好等等，是一个交互的介质，我点它它才动，我操作它它才给我反馈，如果我忘记了，或者我懒得动了，或者有一些用户根本不知道我的副驾有一些什么功能，他就不使用这些功能了，并不会完全匹配真正的场景。

但是我们又发现这个用户在使用车上功能的时候，往往是被动的，为什么是被动呢？比如他为什么要开空调？是因为他觉得冷了，或者热了，他是觉得不舒适了，怎么去定义舒适和不舒适的这些条件也好，或者这些场景，其实在不同车上、不同环境、不同场景下是完全不一样的，大量的汽车行业的knowhow要发挥作用，比如长城建立了一个行业里面第一个车厂自己的风动，因为它可以模拟一年四季不同环境，同样的一套自动化空调在不同场景下我们发现发挥的作用，或者用户的期望是完全不一样的，这一部分怎么灌注到模型里面其实是行业里面一个困难，原来训练基座模型基本是两条路线，第一个，把行业互联网上所有的知识灌到模型里面做预训练，第二个，用一个大的模型蒸馏出来一个小模型。

但是在汽车行业我们发现，这些知识也好，这些数据也好，基本上都掌握在汽车厂手里，而且非常痛苦的一个状态是主机厂对于这些数据的使用水平是落后于互联网行业的，即使手里掌握了大量的数据，怎么样把它转化为一个包括空间的模型，包括汽车行业垂域知识的模型，现在来看也都是很难很难做到的，这就是形成的汽车领域垂域模型还没有很好的解决方案，这也是上午我演讲里面很重要的一个观点。

就像我们今天在场外的马拉松一样，现在整个AI化的座舱也好，或者AI化的整车真的刚跑过发令枪，我们还需要很长的一段时间来完成全程，这要远远慢于在互联网行业里的日新月异，可能上半年还是小龙虾，现在最新的一个东西又是爱马仕（Hermes Agent），这些会快速地在互联网领域演进，但是在汽车行业仍然是需要很长时间的。

长城智能化转型，是为了打赢自己

媒体：您是从2021年开始参与长城AI科技布局，也是历经很多次组织架构调整，您站在您的角度来总结一下长城智能化转型的得与失，您认为传统车企转型最大的陷阱是什么？

佘士东：这可能是从外部来看，或者我们拉长整个时间周期来看“合订本”，或者说从上帝视角来看，感觉好像一直在调整，在2021年也好，甚至更早的时间点，没有人能看到现在的这些东西，也不知道突然间有一天小龙虾就火遍全网，也不知道我们能在整车AI做到这种程度，也不知道归元平台在全球的市场上一车多动力需求这么旺盛。

在那个时间点，我们只是在解决那个时间点遇到的最复杂的问题，以及预判它可能一到两年需要解决的问题。

当时定了一个核心的战略并不是要做什么，而是怎么样打赢自己，不是打赢别人，而是打赢自己，你能不能用当前的决策来打赢如果你什么也不做情况下两年之后的自己。

整个过程也是经历了明显的三个阶段：

第一个阶段，我们先要解决长城智能化平台化问题，因为长城车型比较多，品牌也比较多，当然各种杂音也比较多。

当时长城汽车的座舱系统每一个界面长得都不一样，同样一个音乐功能可能不同品牌车上有不同的界面风格，包括操作方式也是完全不一样的；长城出海也比较早，在海外这个东西尤其会产生差异，我们当时统计，整个智能化的软件版本有240多个，其实那时候我们遇到的第一个问题叫OTA，就是我们怎么样能够用平台化的方式让用户高效地迭代起来，那时候完全没有考虑什么AI这些东西。

回过头来看，那时候我们发现自己讲的很多AI的东西也是骗自己，它并没有真正地去大模型化，而只是完成了平台化，所以当时在2023年推出Coffee OS3.0系列，这时候发现长城所有车长一个样子，并且我们现在已经完成了平均每款车一年都可以有两到三次OTA的高速迭代。

第二个阶段，跟用户快速共创，以及深入运营用户的过程。

在那个过程中，我们跟用户沟通，包括做各种调研、跟访，我们一共组织1000多次不同形式的用户沟通，还有60多次48小时跟随，完全跟他吃住在一起，以这种方式来了解用户，在这个过程中我们发现用户的需求其实在汽车行业里面是被过剩满足的，也就是说出现了同样一个音乐软件可能需要在车里装5—6个，不只是QQ音乐、网易云音乐、汽水音乐都需要装满配。

第二个阶段的个性化是最大投入的一个过程，但是回过头来看，其实也是长城完全B2C化的过程，我们充分地知道了用户到底在车上使用什么样的场景，他为什么使用这些功能，所以也是借着从2023—2025年整个长城智能化达到了用户非常满意的状态，我们每次OTA基本都是90%以上用户满意度。

包括行业里面也能看到，长城不再是所谓的传统车企，而是不同品牌都采用了Coffee OS的系统，不同用户也比较满意，不论是行政版的高山，还有豪华家庭旗舰的蓝山，像坦克品牌、哈弗品牌、欧拉品牌，基本上用户都是比较满意的。

但是在第二个阶段我们也发现，当用户千变万化的个性化需求出现时候，产品经理变得很难去实际操作，因为这个时候就不能只做80%用户满意的功能，可能你的重点就会变成怎么样服务好剩下那15%的用户，而这些用户并不是对于功能的有差异，而是他的体验带来了一些差异的需求。

所以我们也发现，AI可能是一个最好的解法，真正地出现从原来的人机交互的使用功能变成人智体三段式的获取方式，由智能体弥补中间不同人的差异性。

我们也提出来，智能体要做到相识、相知、相爱、相伴的四个阶段来演进这些功能。

同样的QQ音乐，在我认识你之后，我能提供的服务跟你完全使用QQ音乐功能肯定是差异比较大的，包括我知道了你的习惯，你周一是怎么用的，你周末是怎么用的，车上不同人的时候你是怎么用的，这种情况我们也能提供差异化的服务，以及怎么样把车上的这些功能更好地服务给用户，这些都是智能体需要做的。

而在这个过程中，就进入了我们所谓第三代产品，就是基于现有生态能力和车上这些功能，怎么样用智能体的方式更好地给用户服务，而这个过程中发现其实行业里面没有很好的合作伙伴来解决这个问题：

首先他必须得掌握车厂非常多的基础数据，第二，他必须得直面车厂写C端用户，他是不能转手给供应商来解决这些问题的，这个过程我们内部叫作3.0的自研才会出现，后续的产品大家不是在拼命改界面、拼命在车上增加功能，而是怎么样更好地理解用户，把现有的功能以及互联网上比较好的功能，以更合适每个人的方式来实现。

在10年前有人提出来真正意义上的千人千面的服务做到极致，这也是我们认为3.0让每个人拥有不一样的车，以整车AI全栈智能体的方式来实现，可能也是一个重大的变化。

所以现在来看，我们也在想如果采用这套方式，能不能打赢两年之后的长城？现在来看可能是相对比较乐观，包括最近的车展，我们也会发布我们的V9X车型，以及后面多款对应的车型，应该能给大家看到一个不一样的长城。