打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

更深刻了解汽车产业变革

出品: 电动星球

作者:毓肥

头图由 AI 生成

过去一周,围绕智能驾驶芯片、围绕蔚小理英伟达华为特斯拉等等智能汽车企业的论战,再起硝烟。

一方面依然围绕最显而易见、消费者感知最强的算力本身——「稀疏算力」、「稠密算力」和「加倍稀疏算力」的弯弯绕绕,一石激起千层浪。

另一方面,则是有关算力以外的边缘参数,比如内存位宽、内存容量、ISP 性能,等等。一如汽油机时代除了马力,大家还会争论衬套、悬架、防倾杆、方向盘手感一样,各种参数堆叠之下,方能完整映照性能。

作为消费者,如何在厂商的销售话术体系内,精准判断什么才是自己想要的,什么又是雾里看花的数据?

2026 年的智驾芯片仍未有定式,但我们可以根据目前的战局,简单聊聊大家该如何看待现阶段智能驾驶的硬件「斗蛐蛐」。

首先,我们简单总结了蔚小理最新一代自研智驾芯片的具体参数,大家可以简单参考,然后开启今天的文章。

打开网易新闻 查看精彩图片

本周专属福利: 公众号 后台回复 【好运来

免费参与活动抽取现金红包

打开网易新闻 查看精彩图片

算力迷雾

首先当然是算力本身,聚焦 2026 年,中高端智能驾驶系统的算力已经迈向四位数,也就是超过 1000TOPS。

遥想 2017 年,全球最先进的量产辅助驾驶芯片 Mobileye EyeQ4H,单芯片算力只有 5TOPS,9 年时间智能汽车已经以近百倍速度发展。

但算力与算力之间也有鸿沟,此 1000TOPS 不一定比彼 500TOPS 强。

譬如「精度」,就应该是最关键的,配平各家算力的前缀。

首先,所谓的「算力」是怎么得出的?它可以简单理解为「一颗芯片跑特定难度的软件有多快」。

举个例子,英伟达向个人 AI 开发者出售的套件 Jetson Thor,它的官方页面就标注了「2070 TFLOPS」算力,但同时有后缀「FP4-Sparse」(FP4 稀疏)

这意味着 Jetson Thor 的 2070T 算力,是在跑 FP4 精度的软件时得到的「速度值」,如果它跑 int8、FP16 等等更高精度的软件,就会得到一个更慢的速度,以一个更小的数字呈现。

而智能汽车上使用的 Thor-U 芯片,目前传播的 700TOPS 算力,则是在 int8 精度下推理得到的结果。

同样地,蔚来神玑的「一颗顶四颗」、理想马赫的 1280TOPS、小鹏图灵的 750TOPS,甚至特斯拉、华为、地平线们,如果脱离了具体的推理精度,是无法一起比较的。

我们同时询问了蔚小理的官方人士,蔚来方面表示,神玑的推理算力是基于 int8 精度得到的。

小鹏方面则表示,目前还没有对外公布图灵芯片的实际推理精度。而截止发稿,理想汽车并未明确向我们回复马赫 100 芯片的实际推理精度。

打开网易新闻 查看精彩图片

内存瓶颈

如果说峰值算力代表着一颗芯片的理论天花板,那么厂商给智驾芯片配备的运行内存总量,则代表着芯片可以实际发挥多少性能的「木桶最短板」。

我们可以把运行内存简单理解为「一条流水线可以容纳的工人总量」,而算力则代表着「你请了多少工人」。

假设我请了 100 万工人,兴高采烈地宣布,我要建成全世界工人总数最多的工厂。

但实际上,我手里只有一条可以同时容纳 1000 人同时工作的流水线,那么我实际的产出,并不会比请了 1000 名工人,同时流水线上有 1000 个工位的工厂高。

理解了这个概念之后,我们可以代入智驾芯片的实际工况中。比如,理想马赫、小鹏图灵、英伟达 Thor-U,内存带宽都是 273GB/s。

目前业内主流的辅助驾驶大模型参数量,其实还远低于豆包千问们的 lite 小模型,只有 3-5B 的大小。

我们取平均值,一个 4B 参数量的大模型,以 int8 精度推理,那么在 273GB/s 的内存带宽下,它将会实现每个 token 14.65ms 的时延。

对于辅助驾驶推理来说,每个 token 就可以简单理解为输出到方向盘/踏板上的「结果」。

1 秒钟有 1000 毫秒,也就是每秒钟足够这样一个大模型运行 68 次,也就是 68HZ 的「刷新率」,如果每次推理结果都可用,那么已经远超30HZ 的车规级推理刷新率要求了。

也正因如此,Orin X 205GB/s 的带宽,承担目前 4B 左右的大模型参数量,已经摸到它的内存带宽瓶颈了,曾经的廉颇也吃不下越来越大碗的饭。

然后我们可以反过来,同样满足 30HZ 车规级要求的情况下,也可以推断出,特定的内存带宽,可以满足多大参数量的模型。

比如,如果用同样的位宽、int8 精度反算,那么马赫、图灵、Thor-U 都可以实现车端跑 9B 参数量大模型的要求,比 4B 还是大了一倍多。

打开网易新闻 查看精彩图片

至于蔚来神玑,因为它是目前量产内存带宽极高的智能驾驶芯片(546GB/s),所以第一,同样参数量的推理时延更低,其次,它理论上可以承载的模型更大。

按照上面同样的算法,4B 参数+int8 精度推理,神玑 9031 的内存系统理论上可以实现 7.325ms 的推理时延,可以承载 18B 的大模型参数量。

大家应该注意到,我们聊写内存的篇幅明显更长。

因为对于智能驾驶推理来说,内存明显会比算力更早遇到瓶颈,业界称这种现象为「memory wall 内存墙」。

再举个例子,上面算出来神玑 9031 的带宽,足以承受最高 18B 参数的大模型以车规级刷新率进行数据传输。

那么倒过来,同样级别的数据传输,按照 int8 精度计算,实际只需要起步 276TOPS 的算力,就可以支撑计算需求。

当然实际上在不同传感器融合的过程中,算力不能简单理解为一根筋或者两头堵,但这也足以说明,算力已经远不是一套智能驾驶的瓶颈了,内存问题比算力更紧急。

而像这样有点反直觉的事实,智驾芯片里面还有很多。

打开网易新闻 查看精彩图片

ISP?这是啥?

除了内存,还有一个非常影响智驾芯片性能发挥的部件,甚至重要性完全不比推理算力差——ISP。

ISP 全称 image signal processor 图像信号处理器,摄像头感光元件 CMOS 将物理世界信息记录成原生 RAW 数据,ISP 则将原生数据进行降噪、调色、调节动态范围、编码,输出成我们人眼可以识别的图像信息。

熟悉特斯拉的朋友一定记得,马斯克是个坚决的「反 ISP」人士。

马斯克一直认为,ISP 本身会导致数据传递的延迟和失真。所以在目前特斯拉车型使用的 AI 4 方案上,他已经大刀阔斧地砍掉了摄像头端的 ISP,仅保留 AI 4 芯片内置的 ISP,尽可能减少视觉数据传递过程中的损失。

打开网易新闻 查看精彩图片

到了下一代 AI 5,马斯克更是宣称彻底干掉 ISP,直接让 AI 5 2500TOPS 算力的强大 NPU「硬算」原始图像数据的色彩变换,彻底实现「从光子到踏板」的无缝端到端。

但回到蔚小理英伟达们,ISP 依然是目前的主力,甚至正在不断成长。

打开网易新闻 查看精彩图片

譬如神玑 9031,就拥有算力极高的智驾芯片 ISP,6.5G Pixel/s 相当于每秒处理 65 亿像素的视频数据,拆成 3840x2160 的 4K 画幅,也相当于 26 个摄像头的 30HZ 视频流。

另一方面,英伟达 Thor-U 的 ISP 算力,也从 Orin X 的 1.8G 翻倍至3.5G Pixel/s ,所以大家可以看到,搭载 Thor 方案的车型们,普遍都拥有更高像素的车内外摄像头。

打开网易新闻 查看精彩图片

小鹏也在图灵芯片中针对优化了 ISP 能力,尽管没有公布实际像素算力,但双独立 ISP 的设计,以及 24 路摄像头的接入能力,也可以看出小鹏依然走在优化极限场景兜底能力的道路上。

聊到极限场景,除了像素量,「bit」色彩位深也是至关重要的 corner case 兜底利器。

我们以「从黑到白」的色彩变化过程,来理解「色彩位深」的概念。

假设某家芯片厂宣传他们的 ISP 拥有 8bit 位深,那就意味着从纯黑到纯白,他们的 ISP 可以实现 2 的 8 次方,也就是 256 个等级的「位深」,可以理解为过渡了 256 个台阶,才从纯黑到纯白。

譬如蔚来神玑 9031 的 ISP 色彩位深是 26bit,这意味着黑白之间可以理论上分离出 67108864 个「阶梯」,色彩过度更细腻,分离出的细节也会越多。

这就意味着,隧道夜晚这样的极限场景下,色彩位深更高的 ISP,可以准确分离出环境的不同色彩要素,比如车牌、车灯、车身。

打开网易新闻 查看精彩图片

芯片宣传战的号角

聊到现在,可能也只是智驾芯片的冰山一角。

首先,对于个人消费者来说,影响购买决策和使用体验的芯片参数并不多,算力、带宽、ISP、内存大小,这些都是很直观的数字,更深层的功耗、扩展能力,理解门槛相对高,其次对于日常开车影响不大。

其次,我们正在见证中国车企、供应商的第一次芯片大爆发。产品层出不穷,宣传方式这正在摸索中。

可以预见地,中国智驾芯片的宣传战才刚刚开始。一些参数并不是某家厂商不愿意说,而可能是还没想好怎么说更劲爆。

而在纷繁的数字游戏中,消费者需要保持知情权的,不仅是不同领域的参数,更是统一的对比标准。

(完)

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片