提起NVIDIA,你最先想到的是什么?

是横扫全球AI算力市场的H100、B100“核弹级”GPU?

是黄仁勋每场发布会都能点燃行业的技术宣言?

还是那句出圈的“我们创造了AI”?

但很少有人知道,这家站在全球算力之巅的巨头,早已是RISC-V领域的超级玩家。

2024年一整年,NVIDIA单年出货的RISC-V核心,正式突破了10亿颗大关。

这个数字有多夸张?

很多深耕RISC-V赛道多年的厂商,累计出货量都未必能摸到这个门槛。

而NVIDIA,甚至很少把“RISC-V”挂在嘴边。

在RISC-V北美峰会上,NVIDIA多媒体架构副总裁Frans Sijstermans,终于揭开了这家AI巨头与RISC-V之间,长达近十年的隐秘故事。

打开网易新闻 查看精彩图片

根据NVIDIA 2024年RISC-V峰会披露的数据,英伟达2024年一年就出货了超过10亿个RISC-V核心!

这些核心不是单独卖的CPU,都是嵌在每个英伟达加速器里的:

一般一块芯片放10到40个,最新的Blackwell GB200里。

这些RISC-V核心管什么?

协调数据交换、上下文切换、内存热管理,还当硬件信任根做安全启动,整个GPU的控制命脉都交给RISC-V了。

1:NVIDIA和RISC-V的缘分,早在2016年就已经开启。

很多人不知道,英伟达用RISC-V不是今天才开始的,早从2016年就开始内部替换了,替换的就是用了快二十年的Falcon微控制器。

啥是Falcon?

就是英伟达GPU里管视频解码、内存复制、安全管理的小控制器。

从2005年用到现在,GPU核心从几百个涨到几万个,老32位的Falcon早就顶不住了:寻址不够,性能上不去,缓存支持差,线程也保护不了。

性能要到Falcon的两倍以上,面积增加不超两倍,支持64位寻址,还能跑现代实时系统。

当时英伟达把市面上所有指令集都筛了一遍,只有RISC-V满足要求:

就这么着,NV-RISCV家族诞生了。

给你们看个最直观的对比:

架构特性

传统 Falcon 控制器

NV-RISCV (基于 RISC-V)

寻址能力

仅限 32 位

支持 64 位物理/虚拟寻址

性能基准

基准值

提升 3 倍以上

缓存架构

无/受限

支持多级缓存与紧耦合内存 (TCM)

自定义指令

不可扩展

超过 20 个针对 GPU 控制优化的自定义扩展

安全性

基础级别

集成 ICD (In-Circuit Debug) 与安全调试功能

这场替换的规模,远超行业想象。

如今,每一颗NVIDIA芯片组里,都会根据配置集成10到40个RISC-V核心。

从消费级游戏显卡,到数据中心的AI加速卡,再到车载智能芯片,几乎所有NVIDIA产品里,都有RISC-V核心的身影。

也正是这样的全产品线铺开,让NVIDIA在2024年,正式跨过了“单年出货10亿颗RISC-V核心”的里程碑。

而按照NVIDIA的预估,这场架构替换最终会带来数百亿级的RISC-V处理器出货。

很多人会好奇:为什么NVIDIA用了这么多RISC-V核心,行业里却鲜有耳闻?

答案很简单:这些RISC-V核心,都在产品的“幕后”工作。

它们不直接面向终端用户,却撑起了NVIDIA整个产品体系的底层运行,是GPU帝国里看不见的“地基”。

与此同时,NVIDIA也是RISC-V社区最核心的共建者之一。

从RISC-V首届社区会议开始,NVIDIA就深度参与,几乎一直保持着董事会层面的代表席位,同时加入了多个技术工作组、RISE软件组织,既从社区生态中受益,也持续向社区反哺技术成果。

NVIDIA 从仅支持 32 位的 Falcon 核心向 RISC-V 迁移,最初的核心驱动力是对 64 位运算能力的需求。

其首款 RISC-V 研发成果,是一款采用标准扩展的常规双发射乱序执行 RISC-V 核心,可部署为多处理器版本。

后续,NVIDIA 又补充了面向面积受限场景的 32 位版本,以及搭载 1024 位向量单元的向量处理器。

不抢GPU的风头,RISC-V在NVIDIA里到底干了啥?

必须先澄清一个误区:这些RISC-V核心,从来不是要替代NVIDIA的CUDA GPU核心,去做并行计算和AI训练。

它们的定位,是整个算力系统的“超级管家”与“特种辅助”,核心工作集中在三大关键领域。

1. 功能级控制器:GPU的“毛细血管管家”

我们日常使用显卡的视频编解码、画面输出、摄像头接入、内存调度、芯片间数据传输,还有GPU任务的上下文切换,这些看似不起眼却至关重要的基础功能,全部由RISC-V核心负责管控。

它们就像GPU里的毛细血管管家,把每一个功能模块打理得井井有条,才让GPU的主核心能心无旁骛地跑算力。

2. 芯片/系统级控制:整颗芯片的“中枢调度官”

一颗GPU能否稳定运行、能否把功耗和性能平衡到极致、能否守住数据安全的底线,全靠系统级的管控。

而资源管理、电源管理、全芯片安全体系这三大核心工作,正是RISC-V核心的核心阵地。

小到显卡的动态频率调节,大到数据中心级的机密计算防护,背后都有RISC-V核心在兜底。

3. 数据处理:AI算力的“特种辅助部队”

除了管控工作,RISC-V核心也会承担特定的数据处理任务:比如网络芯片里的数据包路由,再比如深度学习加速器(DLA)里,非矩阵乘类的AI网络层运算。

这些工作不算GPU的核心算力场景,却又必不可少,交给RISC-V核心处理,既能给GPU主核心减负,又能大幅提升全系统的运行效率。

2:RISC-V落地的标杆场景

在峰会上,NVIDIA也公开了两个RISC-V落地的标杆场景,彻底揭开了这套体系的核心价值。

场景一:GPU系统处理器(GSP)——GPU的“首席执行官”

打开网易新闻 查看精彩图片

过去,主机CPU的内核驱动,需要直接操控GPU内部的一个个控制寄存器,不仅复杂度极高,还很难兼顾虚拟化和安全性。

而GSP,就是一颗基于64位RISC-V架构的嵌入式处理器,它就像GPU的“首席执行官”:主机只需要下发高层级的指令,GSP就会自动把这些指令翻译成底层的寄存器操作,完成对GPU全资源的调度。

更关键的是,依托RISC-V的隔离能力和NVIDIA的自定义扩展,GSP能通过分离内核,把不同的虚拟机、vGPU runtime严格隔离,互不干扰。

这正是NVIDIA云GPU、虚拟化方案、机密计算能力的核心根基——客户的GPU算力可以完整交付给虚拟机,不受底层虚拟化层的影响,安全和性能都拉满。

场景二:深度学习加速器(DLA)——AI推理的“全能辅助”

在NVIDIA的AI专用SoC里,DLA是核心的推理引擎,负责跑ONNX等深度学习网络模型。其中,卷积计算、矩阵乘法这些“重活”,由专用硬件单元负责,而剩下的绝大多数非矩阵乘网络层、全流程调度控制,全靠RISC-V核心撑起。

打开网易新闻 查看精彩图片

NVIDIA在DLA里部署了两颗RISC-V核心:

一颗32位NV-RISCV32核,负责全系统的运行时控制;

一颗NV-RVV向量核,搭载1024位向量单元,负责各类算子的运算。

二者配合,就能实现完整的ONNX模型端到端推理,给GPU主核心大幅减负,让AI推理的效率和灵活性都上了一个台阶。

3:量身定制:NVIDIA的RISC-V自研全家桶

NVIDIA从来不是RISC-V的“拿来主义者”,而是基于这套开源指令集,做了全链路的深度自研,打造了一套完整的RISC-V“全家桶”。

打开网易新闻 查看精彩图片

三大自研核心,覆盖全场景需求

针对不同的工作负载,NVIDIA打造了三款核心RISC-V处理器,形成了完整的产品矩阵:

核心型号

核心架构

核心定位

关键特性

NV-RISCV32

RV32I-MU

本地控制场景

顺序单发射,主频1.8GHz,主打面积受限、低功耗的控制类场景

NV-RISCV64

RV64I-MSU

高性能系统控制

乱序双发射,主频2GHz,支持多核SMP,主打GSP这类系统级高性能管控场景

NV-RVV

RV32I-MU+向量扩展

数据处理与AI运算

搭载1024位向量单元,主打DLA深度学习推理、数据并行处理场景

基于RISC-V的可扩展特性,NVIDIA开发了超过20个自定义扩展,覆盖通用功能、安全、性能三大维度,既解决了自身的场景需求,也给整个RISC-V社区带来了贡献。

专属优化的2KB页大小扩展,让 legacy 软件的性能直接提升50%;

64位物理/虚拟地址扩展,完美适配数据中心分布式大内存场景;

指针掩码扩展,被纳入RISC-V官方标准,如今已被全球社区开发者广泛使用,为安全类应用提供了核心能力。

4:Peregrine子系统:一次开发,全产品复用

如果说自研核心是积木,那Peregrine子系统,就是NVIDIA搭好的“万能积木套件”。

这套子系统以RISC-V核心为基础,整合了DMA、安全IP等全套外设,同时配套了统一的软件栈。

打开网易新闻 查看精彩图片

NVIDIA旗下超过30个系统控制与管理应用,都可以基于这套子系统灵活配置——需要低功耗控制就选32位核心,需要高性能就选64位核心,再按需叠加对应的扩展,不用每次都从零开发。

打开网易新闻 查看精彩图片

软件层面更是如此,一套统一的软件栈,覆盖了启动程序、操作系统、分离内核、应用层库文件,全产品线通用。

硬件和软件的双重复用,让NVIDIA的开发成本大幅降低,研发效率和投资回报拉到了极致。

打开网易新闻 查看精彩图片

更关键的是,这套子系统把安全做到了骨子里。核心的分离内核就像一个轻量级 hypervisor,能把系统拆分成多个完全隔离的执行环境,不同安全等级的应用可以在不同分区独立运行,比如满足车规ASIL-D安全认证的程序,和普通应用互不干扰。

NVIDIA甚至专门组建了内部攻防安全团队,以“黑客”视角持续挖掘设计漏洞,筑牢安全底线。

4:为什么偏偏是RISC-V?

全球商用架构这么多,为什么NVIDIA偏偏选中了RISC-V,还把它做成了全产品的底层根基?

在峰会分享中,NVIDIA给出了5个最核心的理由,也道破了RISC-V最核心的竞争力。

第一,极致的定制化能力,把硅片价值榨到极致。

RISC-V的开源授权模式,让NVIDIA可以把基础指令集当作“积木底座”,自由添加适配自身场景的扩展和配置,不用被商用架构的固定设计绑死,每一寸硅片都能用到刀刃上。

第二,软硬件协同设计,实现效率双向优化。

基于RISC-V的开放架构,NVIDIA可以针对软件负载做定向的硬件优化,同时基于硬件特性优化软件栈,双向奔赴的协同设计,让系统效率远超市面上现成的通用处理器。

第三,按需配置的灵活性,不花一分冤枉钱。

通用商用处理器往往功能过剩,很多场景下90%的特性都用不上,却要为其支付成本和功耗代价。而RISC-V可以让NVIDIA只选择自己需要的扩展,精准匹配场景需求,大幅降低成本和开发工作量。

第四,自定义扩展的自由度,想要什么功能就加什么。

不管是功能适配、安全加固还是性能提升,NVIDIA都可以通过自定义扩展实现,完全不用等待商用架构的版本迭代,完全掌控产品的研发节奏和能力边界。

第五,统一的软硬件架构,实现全生态复用。

这是最核心的一点,一套通用的硬件IP、一套统一的软件栈,就能覆盖NVIDIA旗下30多个应用、全产品线的需求,不用为每一款产品、每一个场景重新开发一套架构,不仅大幅降低了研发成本,更简化了部署流程,让产品迭代速度大幅提升。

很长一段时间里,行业里总有一个误区:

RISC-V还只是“小众玩家”,只能做物联网、MCU这类低端场景,登不上算力舞台的中央。

但NVIDIA的故事,给了这个误区最有力的反驳。

当10亿颗RISC-V核心,随着NVIDIA的GPU走进全球的数据中心、个人电脑、智能汽车,当站在全球算力之巅的巨头,把RISC-V当作自己产品体系的底层根基。

我们已经能清晰地看到:RISC-V早已不是边缘玩家,它已经走进了算力产业的最核心地带。

10亿颗年出货量,从来不是终点,只是一个开始。

RISC-V的时代,早已到来。

文章来源于歪睿老哥,作者歪睿老哥

创芯大讲堂芯片课程汇总