周三下午,Phoronix的Michael Larabel被带进Nvidia圣克拉拉总部的一间实验室。他面前的主板上插着一颗尚未公开发布的处理器——88核的Nvidia Vera。Nvidia开出的条件很苛刻:只能跑公司选定的一批Linux基准测试,不允许随意加载自己的工具链。Larabel还是跑完了这套受控流程,随后在测试报告里写下了一句让人挑眉的话。
这颗Vera处理器所有的看点,几乎都会落在两个字上:自研。它不是像多数ARM服务器芯片那样,买来Arm的现成核心再拼装。Vera内部跑的是一个完全由Nvidia设计的核心“Olympus”,只借用ARM指令集实现兼容,路数跟苹果的芯片一致。这也不是Nvidia第一次尝试干这件事——12年前,Tegra K1里的“Denver”核心同样是自研产物,只不过当时被移动设备的功耗上限掐住了脖子。如今Vera获得了服务器级的供电与散热预算,体形立刻膨胀成一个88核的怪物。
Phoronix获准进行的测试覆盖面相当广:代码编译、合成内存基准、AV1视频编码、Python性能、Java OpenJDK、文件压缩、Lua JIT,还有几项数据库负载。对比的对象也不含糊,既有单路和双路的AMD EPYC“Turin”处理器,也拉来了Intel“Granite Rapids”至强。Larabel事后用了一种很直白的形容:“Vera展现出的与Intel/AMD x86_64处理器的竞争力,是我在任何其他ARM或非x86_64处理器上从未见过的。”实际上,多线程测试里Vera在绝大多数项目中并没有直接获胜,成绩却死死咬住EPYC的尾巴,对一颗第一代定制服务器核心来说,这种紧贴能力本身就足够离谱。
更提气的事发生在切换到每线程视角之后。过去ARM服务器厂商想跟x86叫板,普遍靠的是往芯片里塞进海量核心,硬把多线程总分拉高,可单核性能始终是一堵墙。Vera这次在单线程编译的timed Gem5项目里,只有AMD的EPYC 9575F凭借更高的每核性能压过它一头;换成Linux内核构建场景,Vera干脆反超,排到了这批服务器芯片的最前面。从“靠核心数量堆分”变成“单核也能掰手腕”,这中间的信号比总分榜上的位置更值得咀嚼。
如果把全部测试结果揉成一个几何平均值,Vera甚至会以相当明显的幅度领先,这主要得益于它在LuaJIT快速傅里叶变换、ClickHouse数据库和Renaissance JVM基准这三个子项里的炸裂表现——用原文的话说,是“绝对碾压对手”。当然,这组数据建立在一个必须正视的前提下:所有测试环境由Nvidia精心挑选并控制,不代表全场景的真实表现。但对于一颗刚露面的自研核心,Vera传递出的信息已经足够让过去那些“ARM只能做轻量服务器”的论调安静一会儿。
从Denver到Olympus,Nvidia在上一次自研CPU核心尝试后的十二年里,几乎把服务器计算的板图翻了个遍。这次Vera没有选择躺在Arm公版核心上省力,而是硬生生把一颗完全订制的微架构推进到紧咬EPYC和Xeon的身位,本身就是在用跑分回答同一条老问题:在数据中心这个战场上,指令集授权模式是否比直接买核心设计走得更远?至少在这间被管制的圣克拉拉实验室里,Vera迈出的第一步已经比许多人预想的要快。
热门跟贴