今天刷到这条技术新闻,我盯着屏幕愣了几秒。英伟达和亚马逊正在搞一件听起来很离谱的事——让GPU跳过CPU,直接去控制SSD。这操作要是成了,AI训练的效率逻辑可能要被改写。

事情的核心是GIDS技术,全称"GPU发起的直接存储访问"。目前AI训练有个老大难问题:数据存在SSD里,GPU要调用时,得先经过CPU中转,再塞进DRAM缓存,最后才能送到GPU手里。这一来二去,CPU线程占用率高不说,GPU还时不时得空等数据,形成明显的性能瓶颈。英伟达自己算过账,这已经成了制约AI扩展的关键卡点。

打开网易新闻 查看精彩图片

GIDS的解法很直接:让GPU自己发号施令,直接对SSD做高速读写,全程不经过CPU和DRAM。相当于把中间商彻底踢掉,数据通路从"SSD→CPU→DRAM→GPU"压缩成"SSD→GPU"直连。

但要实现这套流程,光靠软件协议不够,硬件底子也得跟上。英伟达同步推出了HBF(高带宽闪存)来配套,定位是突破HBM的容量限制。具体参数挺夸张:6颗HBF替代2颗HBM,单GPU显存能从192GB干到3120GB,容量直接翻16倍。而且HBF的AI训练性能基本看齐同规模的HBM模型,推理性能更是完全持平。

产业分工上,英伟达主导GIDS技术标准,亚马逊负责云端基础设施落地,微软和AMD则各自从软件生态和硬件层面跟进。三方联手的目标很明确:撬动Z-NAND等高端闪存硬件市场,把这套新标准推成行业事实。

说实话,这技术路线让我有点困惑。一方面,"去CPU化"的架构变革确实诱人,AI训练最怕的就是数据喂不饱GPU;但另一方面,这种深度绑定的硬件方案——GPU、闪存、协议全得按英伟达的标准来——会不会让生态进一步封闭?毕竟HBM已经够贵了,HBF要是再成刚需,中小玩家的成本压力只会更大。

当然,现在谈"行业转折点"还太早。GIDS能不能从实验室走到大规模商用,得看亚马逊云上的实际表现,也得看微软AMD们的跟进力度。但至少,英伟达又在尝试重新定义AI基础设施的游戏规则了——这次是从存储层下手。