璇玑A3来了:

中国第一颗车规级4纳米智驾芯片,横空出世:从自主研发、设计、测试完全自主完成。

打开网易新闻 查看精彩图片

三颗组合超2100 TOPS,但更重要的是对比通用GPU架构,单位功耗低20%,结合自研算法,深度优化算力资源利用率提升100%。

算力榜上的TOPS不再是唯一的信仰。

AI汽车竞争,从“买谁家的芯片”、“多大算力”变成了“谁真正懂自己的芯片”。

而最令人意想不到的,第一颗4nm智驾芯片,竟然出自以前那个被认为技能点全点在电动化的比亚迪——王传福

国内最先进制程智驾芯片,出自比亚迪

璇玑A3采用4nm车规级制程,全球车载AI计算芯片中,是和英伟达Thor同处T0梯队的级别。

其实自研计算芯片,无论从比亚迪自身技术实力、技术发展趋势还是比亚迪一贯的垂直整合战略出发,发布会之就已经是一个“公开的秘密”——不做,才是出人意料的big news。

打开网易新闻 查看精彩图片

但比亚迪最终拿出的产品方案,还是给了所有人震撼:

制程、算力除了此前的普遍预期——多数人推测比亚迪首款智驾芯片能对标英伟达Orin(254 TOPS),或者地平线J6M,主要解决中低介辅助驾驶问题。

但璇玑A3直接迈向了Thor所在的段位,并且在先进制程这一项,领跑了中国玩家阵营。

更重要的,这颗芯片的自主研发、设计、测试全部由比亚迪自主完成,辅助驾驶全链路可控,并且已经规模化量产。

我们总结了一张参数对照表:

打开网易新闻 查看精彩图片

解释一下这些参数的实际含义。

制程大家最熟悉(4nm)决定了晶体管密度和能效,数字越小性能上限越高。王传福给出的解释是,车规级4nm的技术难度大致相当于消费电子领域的2nm。

这句话并不是严格的技术定义,而是一句通俗易懂的类比,逻辑在于车规级芯片在同样先进制程(如4nm)下,其设计与制造难度是一个跨越式的叠加。

因为车规级芯片不仅是“更高性能”的芯片,本质上是 为“安全”而生的专业芯片,尤其是在4nm这样的先进制程上,设计时必须引入大量的冗余设计和容错电路、制造中也会使用更昂贵的材料,并增加特定的工艺步骤。

打开网易新闻 查看精彩图片

CPU部分为16核,420K DMIPS,负责全局调度和逻辑决策,这个算力足以同时处理智驾、座舱、车身控制的复杂任务。

内存带宽273GB/s,配合自研总线,硬件支持可纳秒级低延迟。

单位算力功耗比同级产品低20%,意味着同样计算任务下发热更少、系统稳定性更高。

算力利用率提升100%则是容易被忽视但非常关键的一点,这涉及到璇玑A3本质:NPU(神经网络处理单元),专为AI推理设计,而非从图形渲染衍生而来的通用GPU。

通用芯片为了兼容多种客户需求必然存在架构妥协,而璇玑A3针对比亚迪自研算法深度定制,使得同样的理论算力能够跑出两倍的有效性能。

打开网易新闻 查看精彩图片

NPU的优势在于将矩阵乘法、卷积等AI常用算子直接硬化,同样的晶体管面积能产出更高的有效算力。同时针对比亚迪自研算法肯定会深度定制,使得同样的理论算力能够跑出更高的有效性能。

自主最先进制程车载智驾芯片,的确够重磅,但从算力本身来看,绝对数值不是No.1。

而真正让璇玑A3区别于其他方案的,不在制程和算力,是能效和利用率上的差异化路线——大力出奇迹比拼理论峰值TOPS时,比亚迪把重心放在了“实际有效算力”上。

比亚迪的璇玑A3,能称为AI汽车“芯皇”吗?

技术路线上,璇玑A3选择了专用NPU,而非英伟达Orin、Thor那样的通用GPU衍生架构。

GPU最早是为了做图形渲染而生的,擅长同时处理海量相似的任务在黄仁勋的带领下,英伟达把GPU变成了通用并行计算平台,使得GPU不但可以做图形相关的任务,还可以做科学计算、数学分析以及AI训练。

这也是英伟达有如今江湖地位的根基。

打开网易新闻 查看精彩图片

而NPU中文叫神经网络处理器或者AI加速器。相比于GPU, NPU更加的注重 AI 相关的任务。

如果把GPU和NPU都看成工人的话, GPU就像经验更丰富一些的老师傅,会干很多东西,效率比较高。

NPU则是专门训练过的流水线工人,技能单一,但是专注的做一件事情且效率极高——高效运行AI模型

通用GPU的优势是生态成熟、工具链完善、客户接受度高,但代价是为了兼容不同车企、不同算法、不同模型,硬件资源必须保持一定的“灵活性”,这种灵活性是以面积和功耗为代价的。

打开网易新闻 查看精彩图片

它把矩阵乘法、卷积、激活函数等算子直接“硬化”,省去了图形渲染和通用计算的冗余逻辑。同样的晶体管数量,NPU能产出更高的实际算力;同样的算力需求,NPU功耗更低。这就是璇玑A3单位算力功耗低20%、算力利用率提升100%的根本原因。

这种专用架构带来的体验提升首先体现在削弱延迟上。

城市领航场景中,从传感器采集到决策执行,中间要经过感知、预测、规划、控制等多个环节,每一步都涉及大量计算。算力不够或架构效率低,系统就会“犹豫”——被加塞、在复杂路口磨蹭、该绕行时不敢动。

璇玑A3的3核NPU原生支持Transformer大模型,能配合自研总线实现纳秒级数据调度。发布会上展示的实测中,搭载璇玑A3的车辆在深圳坪山老街穿行,面对突然窜出的电动车、路边临停车辆、窄道多把掉头等场景,表现出的是“丝滑”而非“机械”:

打开网易新闻 查看精彩图片

更低延迟还意味着更高的安全下限。人类的反应时间约300到500毫秒,普通智驾系统可压缩到100毫秒左右,而专用NPU可以进一步缩短这个窗口。反应越快,留给系统的安全余量就越大——多出几十毫秒可能就是刹住与撞上的区别。

王传福在发布会上给出的“兜底”承诺:

“在城市领航期间,只要你因为辅助驾驶导致的交通事故,比亚迪将全额赔付应由本车承担的经济损失,不设上限”。

不是比亚迪财大气粗,而是底层技术架构支撑起的信心。

打开网易新闻 查看精彩图片

专用NPU带来的不只是低延迟。更高制程、更专用的架构,让璇玑A3在硬件层面具备了超越当前L2辅助驾驶的能力边界。配合比亚迪已经布局的十重冗余架构、超千线激光雷达、闪拍摄像头等传感器,它事实上已经为L3/L4做好了准备——只待法规落地,硬件能力就能直接释放。

这就是专用NPU路线的核心价值:

不是去和通用GPU比谁的理论算力更高,而是用更少的晶体管、更低的功耗,跑出更多的有效计算;用为AI量身定制的硬件,去支撑更复杂的模型、更快的响应、更高的安全上限

璇玑A3的差异化,恰恰体现在这里。

王传福这颗芯片,威力够大吗?

AI浪潮从汽车向更广阔的物理AI延伸浪潮中,比亚迪不是第一个拿出自研底层算力方案的玩家。

但从更深远的技术、产业以及用户角度,璇玑A3却是迄今为止,威力最大、影响最深远的。

首先是对比亚迪自身来说,“全栈自研”,真正能做到从电池、电控到整车架构再到智驾芯片全链路自研的企业屈指可数。

此之前,这个名单上主要是特斯拉、华为,以及部分环节上的蔚小理。现在比亚迪正式加入这个“夯爆了”名单。

打开网易新闻 查看精彩图片

但比亚迪与其他车企,尤其是以高举AI旗帜的新势力相比,护城河又更深一层:

同时拥有5座晶圆制造工厂、7000人芯片研发团队、覆盖13大类567款车规级芯片的产品矩阵,以及46个外部车企品牌。

任何车企都可以复刻座椅、空调、车灯的垂直整合,可以自研智驾算法,甚至也可以流片一颗芯片,但要在芯片设计、制造、封装、测试全流程上同时具备这样的规模和经验,能跟的玩家寥寥无几——

这也同时意味着,智能化“普及”,比亚迪还有更多难以想象的杀手锏。

打开网易新闻 查看精彩图片

对用户而言,这颗芯片带来的不是纸面上的参数,而是更低的价格——全系可选装城市领航,选装价仅12000元;更安全的保障——官方兜底意味着事故赔偿责任由车企承担;

更流畅的OTA迭代——自研芯片使算法更新不再受制于供应商的节奏。

跳出汽车工业,比亚迪的璇玑A3对于整个AI科技革命的发展,可能是改变其局的关键转折。

自动驾驶芯片,或者广义的AI计算芯片领域存在两条路线之争:通用GPU和专用NPU。

英伟达凭借CUDA生态和先发优势拿下了绝大多数的订单。自研NPU则是少数实力玩家发现通用GPU不能满足自身对技术极致探索的需求后,开辟的新战场。

比如谷歌自研TPU用自己在数据中心的海量数据,验证了ASIC路线在AI推理场景中的优越性。

打开网易新闻 查看精彩图片

比亚迪和谷歌唯一的区别是,谷歌的TPU跑在数字世界,比亚迪的璇玑A3跑在物理世界

所以,比亚迪自研璇玑A3,不但是直接改变了GPU/NPU阵营力量对比的大事,更是专用AI加速器在物理AI场景中的首次超大规模验证——这是比所有新势力年销量加在一起还要庞大的搭载规模

从更广的视角看,璇玑A3的意义超越了车载芯片的范畴。

它意味着,一家以电池起家的公司用24年的时间,完成了从能源到计算的全栈闭环。它意味着,中国车企在智驾芯片最高制程领域有了可以与英伟达正面对话的量产产品。

它更意味着,物理AI时代的底层基础设施竞赛已经悄然拉开序幕。

璇玑A3的设计从一开始就兼顾泛化能力:它原生支持Transformer大模型,低延迟、高能效、高利用率——这些特性同样适用于机器人、无人机、工业自动化等一切需要在物理世界中行动的AI。

打开网易新闻 查看精彩图片

具身智能的核心挑战,是在物理世界中实时感知、推理、决策的能力——也就是一个具备高度理解认知能力的大脑。

这要求计算平台既要足够快(低延迟),又要足够省(功耗受限),还要足够稳定。而璇玑A3的架构如果真的具备足够的泛化能力,那么比亚迪手中握着的就不只是一颗智驾芯片,而是一个物理AI时代的通用计算平台

这也是王传福所说说:整车智能就是具身智能

打开网易新闻 查看精彩图片

当人工智能从数字世界走向物理世界的关键节点,谁掌握了对物理世界进行感知、推理和干预的计算核心,谁就可能定义整个智能时代的入口。

回顾历史,PC时代的标准计算单元是x86 CPU,移动互联网时代是ARM SoC,AI时代初期是GPU。

那么物理AI时代的标准计算单元是什么?目前还没有定论。

比亚迪正在用璇玑A3和年销数百万辆车的真实数据,试图给出自己的答案。