Nvidia 88核自研CPU首测：Vera紧咬EPYC与Xeon，ARM阵营离服务器王座还差几步？|amd|arm|nvidia|处理器|服务器|英特尔

周三下午，Phoronix的Michael Larabel被带进Nvidia圣克拉拉总部的一间实验室。他面前的主板上插着一颗尚未公开发布的处理器——88核的Nvidia Vera。Nvidia开出的条件很苛刻：只能跑公司选定的一批Linux基准测试，不允许随意加载自己的工具链。Larabel还是跑完了这套受控流程，随后在测试报告里写下了一句让人挑眉的话。

这颗Vera处理器所有的看点，几乎都会落在两个字上：自研。它不是像多数ARM服务器芯片那样，买来Arm的现成核心再拼装。Vera内部跑的是一个完全由Nvidia设计的核心“Olympus”，只借用ARM指令集实现兼容，路数跟苹果的芯片一致。这也不是Nvidia第一次尝试干这件事——12年前，Tegra K1里的“Denver”核心同样是自研产物，只不过当时被移动设备的功耗上限掐住了脖子。如今Vera获得了服务器级的供电与散热预算，体形立刻膨胀成一个88核的怪物。

Phoronix获准进行的测试覆盖面相当广：代码编译、合成内存基准、AV1视频编码、Python性能、Java OpenJDK、文件压缩、Lua JIT，还有几项数据库负载。对比的对象也不含糊，既有单路和双路的AMD EPYC“Turin”处理器，也拉来了Intel“Granite Rapids”至强。Larabel事后用了一种很直白的形容：“Vera展现出的与Intel/AMD x86_64处理器的竞争力，是我在任何其他ARM或非x86_64处理器上从未见过的。”实际上，多线程测试里Vera在绝大多数项目中并没有直接获胜，成绩却死死咬住EPYC的尾巴，对一颗第一代定制服务器核心来说，这种紧贴能力本身就足够离谱。

更提气的事发生在切换到每线程视角之后。过去ARM服务器厂商想跟x86叫板，普遍靠的是往芯片里塞进海量核心，硬把多线程总分拉高，可单核性能始终是一堵墙。Vera这次在单线程编译的timed Gem5项目里，只有AMD的EPYC 9575F凭借更高的每核性能压过它一头；换成Linux内核构建场景，Vera干脆反超，排到了这批服务器芯片的最前面。从“靠核心数量堆分”变成“单核也能掰手腕”，这中间的信号比总分榜上的位置更值得咀嚼。

如果把全部测试结果揉成一个几何平均值，Vera甚至会以相当明显的幅度领先，这主要得益于它在LuaJIT快速傅里叶变换、ClickHouse数据库和Renaissance JVM基准这三个子项里的炸裂表现——用原文的话说，是“绝对碾压对手”。当然，这组数据建立在一个必须正视的前提下：所有测试环境由Nvidia精心挑选并控制，不代表全场景的真实表现。但对于一颗刚露面的自研核心，Vera传递出的信息已经足够让过去那些“ARM只能做轻量服务器”的论调安静一会儿。

从Denver到Olympus，Nvidia在上一次自研CPU核心尝试后的十二年里，几乎把服务器计算的板图翻了个遍。这次Vera没有选择躺在Arm公版核心上省力，而是硬生生把一颗完全订制的微架构推进到紧咬EPYC和Xeon的身位，本身就是在用跑分回答同一条老问题：在数据中心这个战场上，指令集授权模式是否比直接买核心设计走得更远？至少在这间被管制的圣克拉拉实验室里，Vera迈出的第一步已经比许多人预想的要快。