英伟达GPU被锤出8个漏洞：2美元共享算力秒变主机裸奔

算力游侠

2026-04-03 07:18 ·北京

一块售价8000美元的A100显卡，在云计算中心被切成40份租给不同用户。安全研究者发现，其中任何一个租户都能用特定攻击手法，在几分钟内拿到整台物理机的root权限。

这不是虚拟机逃逸，是直接从GPU内存锤穿到CPU内存的物理层击穿。

2024年，两个独立团队同时披露了针对英伟达Ampere架构显卡的Rowhammer攻击变体。攻击名称自带黑色幽默：GDDRHammer——四个字母既指"图形DDR内存"，也是"极度扰乱DRAM行"的缩写。被锤的RTX 6000和A100，正是当前云厂商的主力租赁型号。

从"只能搞坏AI画图"到"整台机器归我"

从"只能搞坏AI画图"到"整台机器归我"

Rowhammer不是新把戏。2014年，研究者首次发现：对DRAM内存的同一行进行高频反复读写，会产生电磁干扰，把相邻存储单元的0变成1、1变成0。2015年，有人证明这种"位翻转"可以用来提权。

十年间，攻击从DDR3内存进化到能绕过ECC纠错、能穿透内存隔离、能远程触发。2023年，学界首次证实GPU专用的GDDR内存也吃这套——但当时的成果相当有限：只搞出8个位翻转，效果是让目标神经网络的输出精度下降几个百分点。

「相当于往对手咖啡里吐口水，恶心但无害。」一位参与早期研究的工程师这样类比。

今年的突破在于攻击路径的彻底重构。GDDRHammer不再满足于在GPU内存里搞破坏，而是把位翻转精准投送到CPU的内存空间。具体手法涉及对GPU内存控制器的深度操控，利用PCIe总线的DMA（直接内存访问）机制，让GPU以为自己在读写显存，实际上是在对主机的系统内存进行"锤击"。

条件只有一个：IOMMU（输入输出内存管理单元）处于关闭状态。

而IOMMU的默认状态，恰恰是关闭。

为什么云厂商默认可怕选项

为什么云厂商默认可怕选项

IOMMU是CPU和外围设备之间的内存防火墙。开启后，GPU只能访问分配给它的内存区域；关闭后，GPU理论上可以读写整台机器的物理内存。

但开启IOMMU有代价：DMA操作需要经过地址翻译，延迟增加5%-15%，吞吐量下降。对于追求极致性能的高性能计算场景，这个开销不可接受。

「客户租A100是为了跑大模型训练，每多一秒都是钱。」某头部云厂商的虚拟化工程师透露，「我们默认关闭IOMMU，只有金融、政务类客户主动要求时才开启。」

两个研究团队之一的作者Andrew Kwong直言：「我们的工作证明，Rowhammer在CPU上被研究得很透彻，但在GPU上同样是严重威胁。」

攻击演示中，恶意用户先正常租用一块GPU实例。通过精心构造的内存访问模式，在GDDR内存中诱发位翻转，进而污染CPU内存中的页表条目。一旦页表被篡改，攻击者就获得了对任意物理地址的读写能力——包括内核空间。

从租用到root，全程无需任何系统漏洞，纯硬件层面的物理攻击。

英伟达的应对与未解的困局

英伟达的应对与未解的困局

英伟达的安全公告来得很快。针对A100和RTX 6000的补丁通过驱动更新推送，核心是限制GPU内存控制器的某些激进优化行为，降低位翻转概率。

但补丁无法根除问题。Rowhammer的本质是DRAM物理特性的副产品，只要内存密度继续提升、单元间距继续缩小，电磁干扰就不可避免。GDDR6X的单元密度比DDR4高出数倍，攻击面反而更大。

更麻烦的是经济结构的锁定。云计算的商业模式建立在资源共享之上，一块A100的利用率必须冲到80%以上才能回本。多租户隔离是刚需，但硬件层面的绝对隔离意味着性能牺牲，性能牺牲意味着客户流失。

「这就像要求航空公司给每个乘客单独开一架飞机，安全了，但票价你付不起。」

目前的主流缓解方案是监控：云厂商通过行为分析检测异常的GPU内存访问模式，发现疑似攻击时中断实例。但对抗性攻击的研究者已经在探索如何让"锤击"行为伪装成正常的深度学习训练负载。

当算力成为基础设施，它的裂缝也是

当算力成为基础设施，它的裂缝也是

两个独立团队同期发表类似成果，本身说明攻击思路的收敛性。GPU的内存架构比CPU更简单、更激进，Rowhammer的利用反而更直接。

值得玩味的是披露时间线。研究者在2023年底已完成核心实验，与英伟达的协调披露持续了半年。期间H100和H200陆续发布，新一代Blackwell架构即将量产——它们是否免疫？论文没有覆盖，但物理规律没有变。

「换句话说，」Andrew Kwong在邮件采访里用了这个短语，「我们展示的是一种攻击类别，而非特定产品的漏洞。」

云计算客户现在面临一个尴尬的选择：要求云厂商开启IOMMU，承受性能损失；或者接受风险，赌攻击者不会盯上自己的实例。大多数人对这个选项的存在一无所知。

下一次你按小时租用GPU跑模型时，是否该先问一句：你们的IOMMU开了吗？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴