一块售价8000美元的A100显卡,在云计算中心被切成40份租给不同用户。安全研究者发现,其中任何一个租户都能用特定攻击手法,在几分钟内拿到整台物理机的root权限。

这不是虚拟机逃逸,是直接从GPU内存锤穿到CPU内存的物理层击穿。

2024年,两个独立团队同时披露了针对英伟达Ampere架构显卡的Rowhammer攻击变体。攻击名称自带黑色幽默:GDDRHammer——四个字母既指"图形DDR内存",也是"极度扰乱DRAM行"的缩写。被锤的RTX 6000和A100,正是当前云厂商的主力租赁型号。

从"只能搞坏AI画图"到"整台机器归我"

从"只能搞坏AI画图"到"整台机器归我"

Rowhammer不是新把戏。2014年,研究者首次发现:对DRAM内存的同一行进行高频反复读写,会产生电磁干扰,把相邻存储单元的0变成1、1变成0。2015年,有人证明这种"位翻转"可以用来提权。

十年间,攻击从DDR3内存进化到能绕过ECC纠错、能穿透内存隔离、能远程触发。2023年,学界首次证实GPU专用的GDDR内存也吃这套——但当时的成果相当有限:只搞出8个位翻转,效果是让目标神经网络的输出精度下降几个百分点。

「相当于往对手咖啡里吐口水,恶心但无害。」一位参与早期研究的工程师这样类比。

今年的突破在于攻击路径的彻底重构。GDDRHammer不再满足于在GPU内存里搞破坏,而是把位翻转精准投送到CPU的内存空间。具体手法涉及对GPU内存控制器的深度操控,利用PCIe总线的DMA(直接内存访问)机制,让GPU以为自己在读写显存,实际上是在对主机的系统内存进行"锤击"。

条件只有一个:IOMMU(输入输出内存管理单元)处于关闭状态。

而IOMMU的默认状态,恰恰是关闭。

为什么云厂商默认可怕选项

为什么云厂商默认可怕选项

IOMMU是CPU和外围设备之间的内存防火墙。开启后,GPU只能访问分配给它的内存区域;关闭后,GPU理论上可以读写整台机器的物理内存。

但开启IOMMU有代价:DMA操作需要经过地址翻译,延迟增加5%-15%,吞吐量下降。对于追求极致性能的高性能计算场景,这个开销不可接受。

「客户租A100是为了跑大模型训练,每多一秒都是钱。」某头部云厂商的虚拟化工程师透露,「我们默认关闭IOMMU,只有金融、政务类客户主动要求时才开启。」

两个研究团队之一的作者Andrew Kwong直言:「我们的工作证明,Rowhammer在CPU上被研究得很透彻,但在GPU上同样是严重威胁。」

攻击演示中,恶意用户先正常租用一块GPU实例。通过精心构造的内存访问模式,在GDDR内存中诱发位翻转,进而污染CPU内存中的页表条目。一旦页表被篡改,攻击者就获得了对任意物理地址的读写能力——包括内核空间。

从租用到root,全程无需任何系统漏洞,纯硬件层面的物理攻击。

英伟达的应对与未解的困局

英伟达的应对与未解的困局

英伟达的安全公告来得很快。针对A100和RTX 6000的补丁通过驱动更新推送,核心是限制GPU内存控制器的某些激进优化行为,降低位翻转概率。

但补丁无法根除问题。Rowhammer的本质是DRAM物理特性的副产品,只要内存密度继续提升、单元间距继续缩小,电磁干扰就不可避免。GDDR6X的单元密度比DDR4高出数倍,攻击面反而更大。

更麻烦的是经济结构的锁定。云计算的商业模式建立在资源共享之上,一块A100的利用率必须冲到80%以上才能回本。多租户隔离是刚需,但硬件层面的绝对隔离意味着性能牺牲,性能牺牲意味着客户流失。

「这就像要求航空公司给每个乘客单独开一架飞机,安全了,但票价你付不起。」

目前的主流缓解方案是监控:云厂商通过行为分析检测异常的GPU内存访问模式,发现疑似攻击时中断实例。但对抗性攻击的研究者已经在探索如何让"锤击"行为伪装成正常的深度学习训练负载。

当算力成为基础设施,它的裂缝也是

当算力成为基础设施,它的裂缝也是

两个独立团队同期发表类似成果,本身说明攻击思路的收敛性。GPU的内存架构比CPU更简单、更激进,Rowhammer的利用反而更直接。

值得玩味的是披露时间线。研究者在2023年底已完成核心实验,与英伟达的协调披露持续了半年。期间H100和H200陆续发布,新一代Blackwell架构即将量产——它们是否免疫?论文没有覆盖,但物理规律没有变。

「换句话说,」Andrew Kwong在邮件采访里用了这个短语,「我们展示的是一种攻击类别,而非特定产品的漏洞。」

云计算客户现在面临一个尴尬的选择:要求云厂商开启IOMMU,承受性能损失;或者接受风险,赌攻击者不会盯上自己的实例。大多数人对这个选项的存在一无所知。

下一次你按小时租用GPU跑模型时,是否该先问一句:你们的IOMMU开了吗?