“牵头人能下决心是好事,但得坚持住。”
文丨赵宇
编辑丨龚方毅
特斯拉、蔚小理等都在自研芯片,理想是其中唯一用数据流架构的。这种架构概念已诞生 50 多年,学术界讨论已久,但一直缺乏大规模商业化应用。
理想汽车 CEO 李想上月底在微博说,数据流架构是一种原生计算架构,代表了通用 AI 计算架构未来演进的趋势。当时,这块芯片的设计理念得到学界背书 —— 解析马赫 100 芯片数据流架构的论文,入选计算机体系结构领域顶级会议 ISCA 2026。
“理想的重要突破在于敢用 VLA (Vision-Language-Action Model,视觉-语言-行动模型),并且多跨一步去做数据流架构。” 清华大学电子工程系长聘教授、无问芯穹发起人汪玉告诉《晚点 Auto》。
他还认为,数据流架构的优势是提升了计算效率,但代价是编译难度更大。不过由于 AI 可以辅助人类编程,对于持续演进的智驾模型应用,数据流架构成为一种不错的选择。
汪玉长期从事智能芯片、高能效电路与系统相关研究,主持多项国家级以及企业联合项目。2016 年,他将知识成果入股深度学习处理器公司深鉴科技(2018 年被赛灵思收购)。2023 年,他推动成立 AI 基础设施企业无问芯穹。
近期,我们与汪玉聊了数据流架构的技术优势、局限性,以及车企绕开英伟达 CUDA 生态自研芯片是否现实等话题。
以下是我们的交流实录,经编辑。
数据流架构的双面性:计算效率提升但编译难度更大
晚点:理想自研芯片马赫 100 采用数据流架构,你如何评价这条技术路线的优劣势?
汪玉:数据流架构是一个不错的技术方向。
简单来说,芯片处理计算的过程就像做数学题,先把两个数相乘,然后相加。把每个乘法当作一个节点,结果传给下一个加法器,这样就形成了一个巨大的计算图。数据流架构的好处是,数据在芯片的处理单元间直接流动,不需要反复读取外部存储器。
举个例子,要把 500 个数加起来,可以用二叉树方式——两两相加得到 250 个结果,再两两相加得到 125 个结果,依此类推。这就是数据流图。如果用普通 CPU,因为它只有一个计算单元,就需要不断地从存储器里取数、计算、存回去,再取下一组数。如果采用数据流架构,虽然计算次数省不了,但存储开销能省很多。
去年云栖大会理想 CTO 谢炎也提到过,数据流架构让数据在处理单元间直接流动,减少了反复访问内存的开销。
然而,数据流架构的应用难点在于,编译器的代价会比较大。不过,现在 AI 技术很强大,可以用 AI 来帮助完成这些映射工作。甚至在设计算法时,就可以让算法适配底层的计算架构。对于以 VLA 模型为代表的这类智驾模型应用,数据流架构是一个不错的选择。
晚点:Google 的 TPU 芯片是采用数据流架构吗?
汪玉:Google 的 TPU 芯片,你要说它是数据流架构也行,因为很多芯片架构其实都有不同程度的数据流特性。
你可以把整个巨大的计算流图做成一颗固定的芯片,也可以提取出通用的子图模块,让这些模块都能得到支持,再用它们拼接出更大的计算流图。
这就像搭积木,你可以做一个巨大的固定模型,也可以做很多通用积木块,然后用这些积木块组装出各种形状。它有各种设计方法,让工程师能在效率和通用性之间找到平衡点。
我从 2012 年开始做 CNN 算法的芯片架构研究时就发现,要完成同样功能可以用不同的 AI 模型结构。比如当年 VGG、ResNet 等各种不同的网络结构都能做人脸识别。这说明如果硬件层面提供了某些计算模式,软件算法可以学会并适应这些模式。关键不是说自动驾驶或大模型本身会完全固定,而是算法具有学习和适应硬件的能力。
晚点:适合 CNN 运算的芯片是否天然不适合做 Transformer 运算?
汪玉:要看你在哪一级做抽象。如果你专门做卷积运算,但 Transformer 里没有卷积,就要把矩阵运算拆成卷积来处理,这样代价就很高了。现在的 VLA 模型基本上包含了视觉、语言、行动三种模式的各种运算规律,而且短期内三五年大概率不会变:
Vision(视觉)部分主要吃算力,需要在一个较大的输入特征图上进行大量计算操作。因此,视觉相关的处理通常需要专门的卷积运算或者视觉编码器来提取图像特征。
Language(语言)部分通常是内存密集型任务,主要瓶颈在于需要大带宽来支持大量的数据读写。数据流架构在这方面比较合适,能够有效减少内存访问的开销。
Action(行动)部分的计算模式很不规律,需要用到的处理器类型相对多样。
晚点:特斯拉 2019 年量产的 FSD 智驾芯片没采用数据流架构,但说是为自动驾驶推理做了深度定制,这怎么理解?
汪玉:那时候还是面向 CNN 算法为主。到现在大模型的时代,理想一个比较重要的突破,还是它敢于去用 VLA,这是一个比较大的变化。然后现在所有芯片对 VLA 模型的支持都一般,传统芯片支持 CNN 算法的较多。所以理想能把这件事情突破,而且多跨一步去做数据流架构,胆量挺大的。
架构骨架变化进入平稳期,一代芯片能支持多代算法
晚点:DeepSeek 已经证明,用相对小的算力也能做出性能优秀的算法模型,智驾领域能否通过类似优化降低算力需求?
汪玉:这就是软硬件协同优化。你有什么芯片,就在每一层都做修改。芯片受限就改算法或者软件。通过这种垂直打通的优化方式,才能产生更好的系统级效果。
晚点:现在摩尔定律放缓,业内尝试用其他方式提升芯片性能,比如 Chiplet。你看好 Chiplet 技术吗?
汪玉:Chiplet 肯定要做,因为它有两个好处。
第一,单芯片现在不能做得更大了,主要受应力限制。一颗芯片大概是固定的几百平方毫米,12 寸晶圆会被切成一个个芯粒,这个大小基本已经固定。如果想做更大芯片,要用多个芯粒拼起来。
第二,可以把不同工艺的芯粒拼在一起。这种搭乐高的方式可以把不同功能单元组合,比如车载领域会用 CPU、GPU、NPU,还有数据流架构芯片等,如果用乐高的方式拼装,其实会使得快速迭代变容易。
晚点:在提高智驾芯片算力利用率方面,你有没有研究成果可以分享?
汪玉:我们从 2015 年就开始发论文讲这个。一是在完成同样功能的情况下把模型做小,这样计算量、存储量需求就少了,也就是在同样算力下计算速度就会变快。二是压缩和量化,就是把模型里每一个操作需要的比特数降下去,这样底层芯片就可以用更高能效的低比特数单元来做。
就像在固定面积房间里,能摆 10 张沙发,但能摆 100 张椅子。椅子就是低比特数的计算单元,等效算力变成原来 10 倍。这是为什么大家都用 FP4、FP8 而不用 FP32 的原因。
还有内存调度机制。最后都是矩阵向量乘法,怎么让 100 把椅子每时刻都坐满人,利用率就做起来了。这涉及架构设计和内存优化策略。
晚点:从学术研究角度看,未来 3-5 年智驾芯片可能有哪些关键技术演进?尤其是学术界能看到,但工业界还没落地的。
汪玉:内存堆叠可能是必须要做的事。从工艺角度看,Chiplet 解决面积墙问题,算力扩大靠芯粒拼接。下一个是存储墙,怎么把内存布置好,快速拿到数据。未来大概率还是要把计算和存储放得更近,不管是用 3D 堆叠还是其他方式。
晚点:相比端到端、VLA 这些智驾算法的迭代速度,芯片的研发周期显然更长。这可能造成软硬件的研发进度不匹配,如何解决这个问题?
汪玉:我现在的感受是 Backbone,就是模型骨架的变化没那么大。比如 DeepSeek 模型已经迭代了几代,每一代里的关键算子,也就是计算流图的差异,并不是很大。
晚点:所以虽然架构在变,其实用的归根结底还是 Transformer。
汪玉:或者说是变种的 Transformer,然后这些变种 Transformer 架构每一代的变化也没有那么大,因此用编译器就能解决。所以,一颗芯片支持几代不同算法应该问题不大,除非发生剧烈变化比如不用 Transformer 了。
晚点:有业界的人说,有可能会出现一种比 Transformer 更优的架构。
汪玉:学术界看到的,至少三年后才到工业界应用,但目前学术界还没看到。2017 年出的 Transformer,2022 年 11 月才被 ChatGPT 真正应用,用了 5 年,这已经很快。Transformer 真正大规模商用是现在,所以没那么快。
车企造芯算得过来账:成本可控,关键在持续迭代
晚点:理想 2022 年启动自研芯片,当时 VLA 和 Transformer 概念还不火,这对研发影响大吗?
汪玉:2022 年开始研发,真正流片要到 2024 年。在这个过程中,理想肯定看到了 Transformer 架构的潜力。数据流是马赫 100 很重要的组成部分,但这颗芯片肯定还支持 CNN,包括一些支持向量运算的 CPU。
晚点:国外有厂商把数据流架构用在云端数据中心,但数据中心很少做推理。
汪玉:现在推理业务已经起来了。Anthropic 三年间收入翻了 1000 倍,证明 Coding 业务爆发。国家数据局局长刘烈宏说,中国日均 Token 调用量已经到 140 万亿。推理业务起来后,极致定制化的 AI 芯片一定要做,否则每个 Token 的成本降不下去。然后对于车载来说,其实不一定是每个 Token 的成本,而是每秒能输出的 Token 数上不去。
晚点:如果是每秒的 Token 数,那瓶颈还挺大。
汪玉:现在的人形机器人其实不能非常快速地移动,一方面是机械能力限制,另一方面其实是指挥控制频率的问题。每次指挥相当于输出 0 或 1,这就是一个 Token。假设希望每秒能指挥 1000 次,也就是毫秒级反应速度,对应每秒 1000 个 Token。这应当是端侧追求的极致目标。如果是 70 亿参数的模型,需要相当大的芯片才能达到每秒 1000 个 Token 的处理能力。
晚点:每秒 1000 个 Token 是机器人的要求,智驾现在大概是什么情况?
汪玉:智驾的图像传感器帧率一般在 30 帧以上,每一帧图片一般会转化数百个 Token 进行处理,在考虑多路摄像头的情况下,输入需要处理的 Token 一般在数千到上万不等。从输出的角度来看,输出底盘的频率一般在 100 Hz,每一次输出的动作信息一般就十几个 Token,因此也会对应每秒近 1000 个 Token 的输出。
晚点:有业内人士认为,汽车里的空间更大,所以智驾芯片对先进制程的需求不如手机芯片迫切。你怎么看?
汪玉:那倒不会,因为成本差 1000 块钱,竞争都很激烈。包括散热也是个很大问题。为什么手机要用最先进的制程?其实是因为同样能力下,更先进制程芯片的功耗会更低,供电和散热可以做得更简单。汽车是一样的,现在车里的电子系统占比大约到 30% 了,跟智驾、娱乐相关的系统都靠电来支撑,这块电量已经上去了,所以能耗也是一个问题。
但更重要的是反应速度问题、实时性问题、性能问题。智驾要支持最好的模型,实现最快速度、最高能效,至少芯片的性能要足够好。性能如果想足够好,提升工艺和内存的对接方式都很重要。只靠芯片本身并不够。
这是我比较喜欢理想的原因,它可以跟苹果一样,把应用、软件、芯片和车一起优化。这个维度做最好的就是苹果。华为也得这么做,因为它被限制,必须做到极致,才能用落后工艺有比较好的表现。我非常赞成这个逻辑。
晚点:手机厂商自研芯片时,前几代多少都有性能问题,理想第一代自研芯片的可用性会不会也存在疑问?
汪玉:如果要做一家伟大的公司,现在亏得起,牵头人能下决心是好事,但得坚持住。
晚点:特斯拉自研 FSD 芯片后,蔚小理等厂商陆续开始自研芯片。车企自研智驾芯片的投入产出比能算得过来账吗?
汪玉:肯定能算过来账,但核心是芯片得能用。如果真做出来能用、能持续迭代,第一自主可控,第二成本也降下去了。
晚点:大家之所以用英伟达芯片,一方面是它的芯片性能好,另一方面它有 CUDA 生态。国产厂商自研芯片后不用 CUDA 了,这个影响大吗?
汪玉:CUDA 本身支持几千个算子,但智驾的计算维度不需要这么多。以我做大模型的经验,VLA 模型估计就几百个算子这个量级,所以其实软件层面的代价比原来小很多。同时我们现在可以用 AI 写算子,所以我不觉得 CUDA 会是很大壁垒。
晚点:“代价比原来小很多”,具体指什么?
汪玉:当时 CUDA 要支持很多应用,包括显示、游戏、建筑绘图,甚至天气仿真等等。而现在只需要支持大模型,所以会容易很多。
题图来源:Gemini
热门跟贴