AI汽车正在陷入新的同质化竞争:当你发现所有品牌的演示DEMO都差不多时,真正的好架构可能在一场公关辞令中被完全埋没。技术负责人告诉我,这套秘密武器“起码领先一年”。

在北京车展铺天盖地的AI汽车宣传中,荣威可能是最让我困惑的一家。

4月22日,荣威在北京发布了“家越”系列和与字节跳动深度合作的AI汽车技术。台上讲得很热闹,“AI原生”“CPP”“Context+Planner+Pixel”一堆新词往外蹦

发布会第二天,我们关起门来聊了整整一个下午。对面坐着荣威产品负责人钱漾、技术负责人Daniel,还有品牌团队的Joyce。

“昨天台上讲的,很多人理解不了。”钱漾的开场白很坦诚。

但我更关心的是另一个问题:在2026年的今天,当几乎所有车企都在高喊“大模型上车”“智能体座舱”,荣威凭什么突围?

打开网易新闻 查看精彩图片

一、“你们是不是太保守了?”

字节跳动现在至少已经和五六家车企签了合作,如果只是“接入豆包”,用户根本感知不到差别。

我第一个问题就很直接:荣威作为字节在汽车行业的第一家深度合作伙伴,按理说应该有首发优势,为什么发布会上完全感受不到?

荣威产品负责人钱漾的回应是务实的:“家越是荣威的,不是独立品牌。我不是为极客造车,不是为了在车上发PPT。我是围绕家庭日常生活,给你舒适和便利。”

这个定位本身没问题——20万级别的家用SUV,用户确实不需要在车上开视频会议。但问题是,几乎所有这个价位的车都在说类似的卖点。

“我们也不知道对标谁,”钱漾承认,“感觉在做一件新的事情。”

“新”在哪里?Daniel从技术层面给出了解释。

最大的差异在于,大多数接入大模型的车企只是“加了一个语音助手”——你说话,它理解,然后执行预设指令,本质上和几年前的语音控制没有革命性变化。

但荣威和字节做的这套CPP架构,是让AI真正具备推理和规划能力。

我举了个例子:你告诉车“周三和周六加油站有优惠,油箱合适的时候提醒我”。它不是简单设置一个闹钟,而是会结合你的位置、油量、时间,在你真正需要的时候,用最自然的方式提醒你。

“我们不知道这台车的AI能干什么,我们只知道它不能干什么,”Daniel说,“正向清单是用户玩出来的,不是工程师预设的。”

这是AI汽车与智能汽车的本质区别:前者是用户“养”出来的,后者是工程师“写”出来的。

但问题也在这里——这种差异,发布会上用PPT讲不清楚,必须上车试,而且不是试一两个小时,得试一周甚至更长时间,AI才能记住你的习惯、学习你的偏好。

在传播节奏上,慢就是输。你不在用户心里种下“荣威的AI不一样”这个认知,等别人先占了,你就只能跟在后面喊“我也是”。

二、用户到底会不会用?

第二个问题更扎心——你们做了这么多,用户真的会用吗?

现在的车机AI有个通病:看起来什么都能干,实际上用户除了设置导航和切歌,什么都不会用。

我给他们讲了一个真实的场景:很少有人用车机点外卖,因为我的手机上已经有一套完整的支付体系了。如果我跟车机说完,它能直接调用我手机上的豆包完成支付,那才是真正的“打通”。

另一个容易被忽视的难点是:车上有十几路摄像头,比手机复杂得多。“我们要解决的不仅仅是语音理解,”Daniel说,“而是让AI能分清——现在是主驾在说话,还是副驾,还是后排的孩子?每个人的记忆和偏好都不一样。”

这要求AI具备多模态感知能力,不仅仅是“听懂”你在说什么,还要“看懂”谁在说、当时是什么场景。

一个典型的场景:后排小孩睡着了,前排父母还在切舞曲。AI如果能通过摄像头捕捉到小孩的睡眠状态,主动提醒“后排小朋友睡着了,轻一点”,这才是超越普通“语音助手”的价值。

但这些,单纯通过语音交互是做不到的。

三、怎么让用户“玩起来”?

“官方跳出来说我做了多少车控、多少场景,没用的,”我说,“还不如一个真实用户发一个小视频。”

我给他们讲了个真实案例:我一个朋友和女朋友在微信上争论一件事,他把截图发给豆包,让豆包评理。豆包顺着女生的情绪说“他就是不懂你”,女生截图发给男生。男生虽然知道这可能是情绪价值,但矛盾就这么化解了。

这说明什么?用户使用AI的方式不是工程师能预设的。他们可能拿它来调解家庭矛盾,也可能拿它来哄小孩,还可能拿它来做一些很奇怪的事情。

“我们就是想做这个!”钱漾展示了一段视频:车上一个用户随口说“我心情不太好”,AI没有机械地回复“已为您播放轻音乐”,而是用理解身边朋友情绪的口吻说:“你怎么啦?说来听听呗。”

关键在于AI的记忆能力。如果你这周心情不好、下周心情好了,它说话的语气、推荐的音乐风格都会跟着调整。它不是随机的“幽默”,而是基于对你情绪状态的持续理解。

“用户的想象力是需要被激发的,”我说,“你不能指望每个人都玩出花来。你得给一些‘种子场景’——原来还能这么玩,他们才会自己举一反三。”

专属优势:与字节的“联合定制”

回到一个核心问题:既然字节同时合作了多家车企,荣威凭什么做差异化?

答案藏在“联合定义”这四个字里——大部分合作是“我用你们的大模型”,荣威和字节的合作是“我们一起打造适合汽车场景的AI架构”。

“字节做基模很牛,但它不懂车,”Daniel说,“一辆车上十几路摄像头,指令的延迟要求比手机高得多,有些指令还涉及驾驶安全,不能随便执行。”

CPP架构的核心是三层设计:C层(Context)负责收集多模态信息——谁在说话、车外是什么环境、车里是什么状态;P层(Planner)做推理规划,判断用户意图并制定执行方案;最后的P层(Pixel)是执行层,由车厂把控安全底线。

“我们不知道这台车的AI能干什么,我们只知道它不能干什么,”Daniel说,“正向清单是无限的,但负面清单是可控的。”

在采访快结束的时候,我问了一个有点“穿越”的问题:现在你们讲AI,跟十年前荣威讲“互联网汽车”有什么本质区别?

钱漾沉默了几秒,然后说:“十年前我们是把手机的能力搬上车,本质还是你在操作它。但这次,是它开始真正理解你。”

这大概就是AI汽车与智能汽车的本质区别。前者是你“养”出来的,后者是你“用”出来的。

钱漾透露,今年7月左右,搭载这套系统的首款车型就会上市。“我们希望能够让用户自己玩起来,而不是我们告诉他应该怎么玩。”

对于汽车行业来说,这可能意味着一个转折点:当AI足够聪明时,产品的核心竞争力不再是厂商预设了多少功能,而是用户能“玩”出多少可能性。

就像没人教过你用豆包解决家庭矛盾,你自己就发现了。未来的AI汽车,也会出现类似的“非说明书式场景”。