更深刻了解汽车产业变革
出品: 电动星球
作者:毓肥
头图由 AI 生成
过去一周,围绕智能驾驶芯片、围绕蔚小理英伟达华为特斯拉等等智能汽车企业的论战,再起硝烟。
一方面依然围绕最显而易见、消费者感知最强的算力本身——「稀疏算力」、「稠密算力」和「加倍稀疏算力」的弯弯绕绕,一石激起千层浪。
另一方面,则是有关算力以外的边缘参数,比如内存位宽、内存容量、ISP 性能,等等。一如汽油机时代除了马力,大家还会争论衬套、悬架、防倾杆、方向盘手感一样,各种参数堆叠之下,方能完整映照性能。
作为消费者,如何在厂商的销售话术体系内,精准判断什么才是自己想要的,什么又是雾里看花的数据?
2026 年的智驾芯片仍未有定式,但我们可以根据目前的战局,简单聊聊大家该如何看待现阶段智能驾驶的硬件「斗蛐蛐」。
首先,我们简单总结了蔚小理最新一代自研智驾芯片的具体参数,大家可以简单参考,然后开启今天的文章。
本周专属福利: 公众号 后台回复 【好运来 】
免费参与活动抽取现金红包
算力迷雾
首先当然是算力本身,聚焦 2026 年,中高端智能驾驶系统的算力已经迈向四位数,也就是超过 1000TOPS。
遥想 2017 年,全球最先进的量产辅助驾驶芯片 Mobileye EyeQ4H,单芯片算力只有 5TOPS,9 年时间智能汽车已经以近百倍速度发展。
但算力与算力之间也有鸿沟,此 1000TOPS 不一定比彼 500TOPS 强。
譬如「精度」,就应该是最关键的,配平各家算力的前缀。
首先,所谓的「算力」是怎么得出的?它可以简单理解为「一颗芯片跑特定难度的软件有多快」。
举个例子,英伟达向个人 AI 开发者出售的套件 Jetson Thor,它的官方页面就标注了「2070 TFLOPS」算力,但同时有后缀「FP4-Sparse」(FP4 稀疏)。
这意味着 Jetson Thor 的 2070T 算力,是在跑 FP4 精度的软件时得到的「速度值」,如果它跑 int8、FP16 等等更高精度的软件,就会得到一个更慢的速度,以一个更小的数字呈现。
而智能汽车上使用的 Thor-U 芯片,目前传播的 700TOPS 算力,则是在 int8 精度下推理得到的结果。
同样地,蔚来神玑的「一颗顶四颗」、理想马赫的 1280TOPS、小鹏图灵的 750TOPS,甚至特斯拉、华为、地平线们,如果脱离了具体的推理精度,是无法一起比较的。
我们同时询问了蔚小理的官方人士,蔚来方面表示,神玑的推理算力是基于 int8 精度得到的。
小鹏方面则表示,目前还没有对外公布图灵芯片的实际推理精度。而截止发稿,理想汽车并未明确向我们回复马赫 100 芯片的实际推理精度。
内存瓶颈
如果说峰值算力代表着一颗芯片的理论天花板,那么厂商给智驾芯片配备的运行内存总量,则代表着芯片可以实际发挥多少性能的「木桶最短板」。
我们可以把运行内存简单理解为「一条流水线可以容纳的工人总量」,而算力则代表着「你请了多少工人」。
假设我请了 100 万工人,兴高采烈地宣布,我要建成全世界工人总数最多的工厂。
但实际上,我手里只有一条可以同时容纳 1000 人同时工作的流水线,那么我实际的产出,并不会比请了 1000 名工人,同时流水线上有 1000 个工位的工厂高。
理解了这个概念之后,我们可以代入智驾芯片的实际工况中。比如,理想马赫、小鹏图灵、英伟达 Thor-U,内存带宽都是 273GB/s。
目前业内主流的辅助驾驶大模型参数量,其实还远低于豆包千问们的 lite 小模型,只有 3-5B 的大小。
我们取平均值,一个 4B 参数量的大模型,以 int8 精度推理,那么在 273GB/s 的内存带宽下,它将会实现每个 token 14.65ms 的时延。
对于辅助驾驶推理来说,每个 token 就可以简单理解为输出到方向盘/踏板上的「结果」。
1 秒钟有 1000 毫秒,也就是每秒钟足够这样一个大模型运行 68 次,也就是 68HZ 的「刷新率」,如果每次推理结果都可用,那么已经远超30HZ 的车规级推理刷新率要求了。
也正因如此,Orin X 205GB/s 的带宽,承担目前 4B 左右的大模型参数量,已经摸到它的内存带宽瓶颈了,曾经的廉颇也吃不下越来越大碗的饭。
然后我们可以反过来,同样满足 30HZ 车规级要求的情况下,也可以推断出,特定的内存带宽,可以满足多大参数量的模型。
比如,如果用同样的位宽、int8 精度反算,那么马赫、图灵、Thor-U 都可以实现车端跑 9B 参数量大模型的要求,比 4B 还是大了一倍多。
至于蔚来神玑,因为它是目前量产内存带宽极高的智能驾驶芯片(546GB/s),所以第一,同样参数量的推理时延更低,其次,它理论上可以承载的模型更大。
按照上面同样的算法,4B 参数+int8 精度推理,神玑 9031 的内存系统理论上可以实现 7.325ms 的推理时延,可以承载 18B 的大模型参数量。
大家应该注意到,我们聊写内存的篇幅明显更长。
因为对于智能驾驶推理来说,内存明显会比算力更早遇到瓶颈,业界称这种现象为「memory wall 内存墙」。
再举个例子,上面算出来神玑 9031 的带宽,足以承受最高 18B 参数的大模型以车规级刷新率进行数据传输。
那么倒过来,同样级别的数据传输,按照 int8 精度计算,实际只需要起步 276TOPS 的算力,就可以支撑计算需求。
当然实际上在不同传感器融合的过程中,算力不能简单理解为一根筋或者两头堵,但这也足以说明,算力已经远不是一套智能驾驶的瓶颈了,内存问题比算力更紧急。
而像这样有点反直觉的事实,智驾芯片里面还有很多。
ISP?这是啥?
除了内存,还有一个非常影响智驾芯片性能发挥的部件,甚至重要性完全不比推理算力差——ISP。
ISP 全称 image signal processor 图像信号处理器,摄像头感光元件 CMOS 将物理世界信息记录成原生 RAW 数据,ISP 则将原生数据进行降噪、调色、调节动态范围、编码,输出成我们人眼可以识别的图像信息。
熟悉特斯拉的朋友一定记得,马斯克是个坚决的「反 ISP」人士。
马斯克一直认为,ISP 本身会导致数据传递的延迟和失真。所以在目前特斯拉车型使用的 AI 4 方案上,他已经大刀阔斧地砍掉了摄像头端的 ISP,仅保留 AI 4 芯片内置的 ISP,尽可能减少视觉数据传递过程中的损失。
到了下一代 AI 5,马斯克更是宣称彻底干掉 ISP,直接让 AI 5 2500TOPS 算力的强大 NPU「硬算」原始图像数据的色彩变换,彻底实现「从光子到踏板」的无缝端到端。
但回到蔚小理英伟达们,ISP 依然是目前的主力,甚至正在不断成长。
譬如神玑 9031,就拥有算力极高的智驾芯片 ISP,6.5G Pixel/s 相当于每秒处理 65 亿像素的视频数据,拆成 3840x2160 的 4K 画幅,也相当于 26 个摄像头的 30HZ 视频流。
另一方面,英伟达 Thor-U 的 ISP 算力,也从 Orin X 的 1.8G 翻倍至3.5G Pixel/s ,所以大家可以看到,搭载 Thor 方案的车型们,普遍都拥有更高像素的车内外摄像头。
小鹏也在图灵芯片中针对优化了 ISP 能力,尽管没有公布实际像素算力,但双独立 ISP 的设计,以及 24 路摄像头的接入能力,也可以看出小鹏依然走在优化极限场景兜底能力的道路上。
聊到极限场景,除了像素量,「bit」色彩位深也是至关重要的 corner case 兜底利器。
我们以「从黑到白」的色彩变化过程,来理解「色彩位深」的概念。
假设某家芯片厂宣传他们的 ISP 拥有 8bit 位深,那就意味着从纯黑到纯白,他们的 ISP 可以实现 2 的 8 次方,也就是 256 个等级的「位深」,可以理解为过渡了 256 个台阶,才从纯黑到纯白。
譬如蔚来神玑 9031 的 ISP 色彩位深是 26bit,这意味着黑白之间可以理论上分离出 67108864 个「阶梯」,色彩过度更细腻,分离出的细节也会越多。
这就意味着,隧道夜晚这样的极限场景下,色彩位深更高的 ISP,可以准确分离出环境的不同色彩要素,比如车牌、车灯、车身。
芯片宣传战的号角
聊到现在,可能也只是智驾芯片的冰山一角。
首先,对于个人消费者来说,影响购买决策和使用体验的芯片参数并不多,算力、带宽、ISP、内存大小,这些都是很直观的数字,更深层的功耗、扩展能力,理解门槛相对高,其次对于日常开车影响不大。
其次,我们正在见证中国车企、供应商的第一次芯片大爆发。产品层出不穷,宣传方式这正在摸索中。
可以预见地,中国智驾芯片的宣传战才刚刚开始。一些参数并不是某家厂商不愿意说,而可能是还没想好怎么说更劲爆。
而在纷繁的数字游戏中,消费者需要保持知情权的,不仅是不同领域的参数,更是统一的对比标准。
(完)
热门跟贴