从2020年开始,随着AI计算的大爆发和云计算规模持续、快速地增长,企业级用户的需求也在快速攀升。即使在2023年,企业级处理器已经实现单路最高128核256线程的规模,但面对无尽的计算需求,企业级用户依旧强烈渴求更快、更高效的产品。为了顺应这种趋势和满足市场的需求,2024年10月,AMD发布了新一代EPYC 9005系列处理器,将处理器核心数量大幅度提升至最多192个,同时性能也大幅度提升。那么AMD EPYC 9005系列处理器是如何做到这一切的?本文将和你一起解读其内部的秘密。
0 1
3nm工艺上阵 最大192核心
EPYC 9005创造处理器新纪录
EPYC 9005系列处理器有Zen 5、Zen 5c两种版本,总计有27款产品,其中基于Zen 5c的高密度型号有5款,涵盖了96核心~192核心的不同方案。基于Zen 5架构的产品占据了最多的处理器型号数量,涵盖了8核心~128核心的不同方案,最大核心数量为128核。其中96核心、128核心的处理器,Zen 5和Zen 5c都有相应产品推出,前者显然是面向高性能用户,后者的频率和功耗更低。
▲AMD EPYC 9005系列处理器家族
▲AMD EPYC 9005系列处理器还特别适合搭配GPU用于AI推理和训练,其中5GHz频率的EPYC 9575F搭配GPU能大幅提升AI推理和训练性能。
EPYC 9005系列处理器大幅度提升了最高频率,基于Zen 5架构的处理器产品最高频率达到5GHz,这在企业级产品上是首次出现如此高频率的产品,AMD为这类产品增加了“F”后缀以表示特色和突出。不过,这类产品并非随时都运行在这么高的频率上,AMD特别指出,每个CCD中有1个核心可以通过Max Boost技术运行在超高频率上,其余的核心受制于功耗无法实现如此高的频率。另外,基于Zen 5c架构的处理器的核心数量更多、密度更大,频率从上一代Zen 4c架构最大的3.1GHz提升到了目前的最大3.7GHz,性能明显提升。
▲AMD EPYC 9005系列处理器采用2种架构,分别是Zen 5和Zen 5c。
在EPYC 9005系列处理器家族中,基于Zen 5架构的产品采用4nm生产工艺,基于Zen 5c架构的产品则采用3nm生产工艺。基于Zen 5和Zen 5c的产品均为相同的IOD设计,采用6nm生产工艺,不过新的IOD进行了架构上的调整和更新,规格和性能更强大。这也是AMD首次在EPYC产品上融合三种不同的生产工艺,展现了AMD在芯片设计领域的强大实力。
▲Zen 5和Zen 5c的不同的微架构带来了处理器不同的市场取向。
EPYC 9005系列处理器的最大TDP功耗提升到500W,官方明确标注TDP为500W的产品只有2款,分别是EPYC 9965和EPYC 9755,其余所有产品的TDP功耗都在400W以下,多数为390W和300W。不过AMD也提到,部分TDP为400W的处理器可以开启自定义配置,将TDP提升到500W以获取更长时间的高频率运行,得到更显著的性能释放。
可能有些用户要问,目前消费级桌面平台已经有8核心16核心的产品,为什么EPYC家族中还有这类产品呢?这是因为整个EPYC的平台设置、IO规格以及互联规模等和消费级桌面平台存在相当大的差异,比如更多的PCIe 5.0通道、更大容量的内存支持等,因此对一些计算性能要求不高,但对互联能力、内存容量要求较高的场合,核心数量较少的产品还是非常合适的。
AMD对EPYC 9005系列处理器寄予厚望,称其为最好的服务器处理器。相比竞争对手的产品,EPYC 9005系列处理器的各方面表现都得到明显提升。
AMD在发布会上对比了一组数据:1000台双路英特尔至强白金8280服务器的性能和131台双路EPYC 9005的性能相当,但是AMD的方案使得整体电能节约了68%,服务器数量降低87%,3年的TCO耗费降低67%。这样的整体表现更令人满意。
0 2
Zen 5和Zen 5c架构
高性能和高密度并存
接下来看架构。Zen 5架构针对企业级产品的设计目标是提供1T和2T性能提升并成为未来计算的基础架构。AMD特别提到通过加入对AVX-512的支持,可以进一步提高吞吐量和AI计算的性能。在平台方面,Zen 5架构带来了标准型Zen 5和紧凑型Zen 5c两种规格,还支持FP512和FP256的数据路径配置,支持整体规模缩放和能源效率提升。工艺方面则为3nm和4nm进行了适配和优化,增强了部分ISA功能。整体来看,Zen 5架构将在很长一段时间内成为AMD计算架构的基础。
▲Zen 5架构针对企业级产品的设计目标一览
▲Zen 5 CCD的设计特性情况
架构改进方面,Zen 5主要在四大方面进行了改进优化。一是在分支预测方面,Zen 5做了极大的提升,吞吐量更大、延迟更低以及L2缓存带宽增大等,效率得到提升;二是拓宽取指和解码管道为双路,每个解码管道每周期执行4个指令,总体来算是每周期8个操作。双路解码管道是AMD首次出现的设计。
第三,执行能力方面,整数ALU加强到6个,AGU提升到4个,每周期可以执行6个FP或者2个周期执行1个FADD操作,完整的AVX-512也被纳入架构中;四是数据流方面,4个负载管道可以执行512bit的AVX-512计算数据流。
▲Zen 5架构整体设计特性一览
▲Zen 5相比Zen 4微架构提升情况总结
Zen 5的CCD方面,核心改进主要是L1和L2缓存的性能大幅度提升,比如L2的缓存关联性翻倍,同时L2缓存带宽翻倍。L3方面主要是降低了命中失误的概率,因此延迟大幅度降低。如果以Zen 4为基准对比的话,Zen 5的CCD拥有更快的L2和所有核心共享的、延迟更低的32MB L3。另外,L2的数据标签在L3中是重复的,这意味着探测过滤和快速缓存传输技术能够有效启用并带来更好的性能。
▲Zen 5和Zen 5c的设计目标和整体差异
另外就是Zen 5c,AMD采用同架构核心的做法。Zen 5c和Zen 5的整个架构结构完全相同,只是Zen 5c采用较低的频率和较高的能效比设计方案,同时降低了分配至每个核心的L3缓存容量。在Zen 5上,8个CPU核心共享32MB L3,每核心平均4MB。在Zen 5c上,16个CPU核心共享整组32MB L3,每核心2MB。在基于Zen 5c的产品上,因为每核心的L3缓存更低,这对于一些缓存敏感型的应用来讲会有性能上的影响,但考虑到Zen 5c产品主要面向高密度计算类的客户,因此这样的设计是合理的。
在SoC层面的宏观布局上,EPYC 9005系列处理器有两种布局:第一种是以Zen 5架构的CCD为核心的产品,整体最多16个CCD,最多配备128个CPU核心;第二种是以Zen 5c架构的CCD为核心的产品,整体最多12个CCD。相比之下,每个Zen 5c的CCD拥有16个CPU核心,面积比Zen 5 CCD略大,因此在IOD周围只能布局12个CCD,核心数量最多为192个。
▲Zen 5针对能耗比方面进行了大量优化设计
▲在CPU的AI性能方面,Zen 5相比对比产品大幅度提升。
AMD对Zen 5架构做了大量的能耗比优化和改进,因此Zen 5架构带来了不错的能耗比优势。比如,持续的电源门控技术的改进、减少电源进入/退出所耗费的时间、更好的分支预测等,这些优化都进一步提高了Zen 5的能耗比。另外,整体缓存层次结构、总线结构、核心件流量的优化也使得处理器的效率得以提升。一般来讲,电源效率的提高就意味着系统性能的提升,因为电能被用在了其他合适的地方。在关键性数据上,AMD表示Zen 5架构带来了最高17%的企业级和云计算IPC提升,以及高达37%的AI性能IPC提升。
0 3
EPYC 9005 SoC整体布局
IOD重新优化 引入新功能
一直以来,AMD在IOD设计上都非常出色,EPYC 9005系列处理器也不例外。该系列处理器的IOD采用6nm生产工艺,与上代产品相比,多项规格进行了大幅度升级,我们列举来看。
▲AMD EPYC 9005系列SoC层面的宏观布局和特性一览
EPYC 9005系列处理器的内存规格:
●内存速率:EPYC 9005系列处理器新增了对最多12通道的DDR5 6000 ECC内存的支持。不过AMD公布的资料还显示该系列处理器支持DDR5 6400 ECC内存,这意味着该规格可能是可配置的,用户如需要DDR5 6400 ECC内存或许可以和具体的厂商提出需求。上代EPYC 9004系列处理器虽然也支持DDR5,但是最高只支持DDR5 4800。
●内存通道:EPYC 9005系列处理器支持2、4、6、8、10、12通道的配置,其中12通道能够发挥出最高的性能。
●内存种类:EPYC 9005系列处理器支持RDIMM内存和3DS RDIMM内存。前者是专为服务器设计的内存,它在内存PCB上加入了专用的寄存器以减少并行传输的距离,提高了传输效率。相比普通内存,RDIMM内存效率更高、速率更快也更为稳定。3DS RDIMM内存则是采用3D堆叠技术的RDIMM内存,容量可以提升至单条最高256GB。
●内存容量:EPYC 9005系列处理器支持每个内存通道2个DIMM的设计,最大支持每个CPU插槽6TB的内存,对应的就是每个DIMM最大256GB(恰好是3DS RDIMM最大容量)。
可见,EPYC 9005系列处理器的内存规格在当前的企业级处理器中是相当先进的,最大6TB的容量和对最多12通道DDR5 6000的支持,可以满足绝大部分企业级应用场景的需求。如果用户对单插槽6TB的内存容量还不满足的话,还可以采用CXL 2.0内存扩展方案来获取更大的内存容量。
EPYC 9005系列处理器的I/O支持也相当强悍,该系列处理器在双路配置下支持最多160个PCIe 5.0通道,每通道最高可达32Gbps的速率,另外还有额外12个PCIe 3.0通道用于连接一些低速设备。在单路配置下,EPYC 9005系列处理器支持128个32Gbps速率的PCIe 5.0通道以及额外的8个PCIe 3.0通道。此外,EPYC 9005系列处理器的PCIe通道支持自由配置为x16、x8、x4、x2和x1规格,满足不同设备的需求,而且本次还新增了对PCIe链路加密的支持。
▲AMD EPYC 9005系列处理器在1P和2P布局情况下配置情况一览
EPYC 9005系列处理器采用和上代EPYC 9004系列处理器一样的SP5封装,因此之前的主板也可以支持新的处理器,不过需要更新到最新的BIOS版本。对企业来讲,只需要更换CPU就可以得到性能上的提升,无疑大大节约了设备采购费用。另外,EPYC 9005系列处理器的安全特性进一步升级,不仅支持可信任IO(Trusted IO)技术,配备增强的专用安全子系统,还新增密文隐藏能力,可采用多种手段阻止对密文的非法访问。
0 4
EPYC 9005 SoC设计解析
更大带宽 更多实用设计
在了解整个EPYC 9005系列处理器的SoC宏观设计之后,我们再来详细解读该系列处理器的一些重要部分。
●采用统一32MB L3缓存 CCD的宽配置和窄配置
Chiplet架构设计是决定EPYC处理器具备高密度、高性能特点的重要因素。EPYC 9005系列处理器在设计上的主要改进也体现在不断优化的CCD和IOD上,AMD称之为IOD和CCD的封装协同设计。通过这个协同设计,AMD可以在EPYC 9005系列处理器的高密度版本中带来更多的核心数量。另外,AMD提到的CCD改进主要是针对Zen 5c CCD的改进,其L3缓存从前代产品的2个16MB的搭配改进为整体的32MB。更大的一体式L3缓存在很大程度上降低了由于L3缓存容量不足带来的性能下降,毕竟对一个16核心的CCD来说,并非每个核心都需要不停地使用2MB L3缓存。在这种情况下,部分高负载核心有机会使用更大的缓存从而拥有更好的性能。
▲AMD在整个Chiplet层面做出了很多改进,比较值得注意的是采用统一32MB缓存以及CCD的宽配置和窄配置。
在CCD和IOD的配置方面,AMD依旧使用GMI3总线连接CCD和IOD,并且维持之前的宽配置和窄配置方案。根据AMD介绍,处理器CCD数量>8个时,将启用窄置方案,此时系统中的每个CCD和IOD的连接采用1条GMI3总线。反之,当CCD数量≤8个时,每个CCD可以使用2条GMI3总线连接IOD。在上代EPYC 9004系列处理器中,宽配置和窄配置的分界点为4个CCD,本代由于CCD数量大增,因此分界点变成8个CCD。
AMD还提到,EPYC 9005系列处理器在CCD到IOD的数据连接方面予以增强。现在针对CCD到IOD的探测响应数据(probe-response data)提升到每周期32B(读取),密集的写入工作则提升到每周期16B。能耗方面,现在GMI总线可以根据能源管理单元的控制使用减半带宽,而不是在空闲或者较轻负载时还运行在高速率上。
●内存配置速率提升 延迟维持不变
前文已经介绍了EPYC 9005系列处理器在内存方面的提升,这里介绍一下更细节的信息,比如12通道DDR5 6000配置下,单个处理器插槽拥有576GB/s的峰值吞吐带宽。在ECC内存支持方面,EPYC 9005系列处理器同时支持x72和x80两种规格,这两种规格的差异在于前者使用EC4校验而后者使用EC8校验。AMD提到,EPYC 9005系列处理器在内存方面设计的重点是提高DRAM ECC位的错误检测和数据校准能力,并且优化了Dual-Rank和Single-Rank内存的带宽和效率,使得整个系统的TCO都有更好的表现。
▲AMD EPYC 9005系列处理器的内存整体性能得到了很大提升
此外,AMD还对比了1Rx8和2Rx4的性能。这种配置中,2R的性能往往相比1R更差,因为其拥有2个通道,内存控制器需要2次才能访问完所有的DRAM空间。不过AMD优化后,除了在内存复制的部分性能上损失了10%之外,其余以及综合表现性能差异都在5%以内。对企业级用户来说,2R内存容量更大,在大量容量优先的场合下更值得选择。AMD在EPYC 9005中的优化使得2R内存的整体性能表现和1R内存基本相当,这对于企业级用户来说还是很有意义的。
在内存管理方面,EPYC 9005系列处理器带来了内存分区功能。EPYC处理器的内存采用NUMA架构,这意味着延迟可能因处理器核心与内存和I/O控制器的接近程度而异。使用同一NUMA节点内的资源可以提供更好的性能,而使用不同节点中的资源则会增加延迟。为了满足不同用户的需求,AMD带来了内存分区功能,给出NPS1、NPS2和NPS4三种分区方式,在不同情况下可以应对不同的配置方案。
▲AMD对比了1Rx8和2Rx4的内存性能,经过AMD优化,2Rx4相比1Rx8除了在内存复制的部分性能上损失10%之外,其余以及综合表现性能差异都在5%以内。
简单来说,选择NPS1的时候,12个通道只要是单通道或者任意偶数配置均为平衡配置。选择NPS2时,单通道为不平衡配置。选择NPS4时,由于此时有4个NUMA节点,因此只有4个通道、8个通道和12个通道的配置为平衡配置,性能不受影响,其余的比如1通道、2通道、6通道、10通道均会造成性能损失,这一点和EPYC 9004系列处理器相同。由于不同用户遇到的情况不同,而且内存通道配置对设备最终性能影响很大,因此建议用户在遇到类似问题的时候联系设备企业或者AMD解决。
●IO性能为AI优化 引入SDCI功能
考虑到AI应用的需求,AMD在IO方面对AI计算进行了优化并带来了DMA、P2P和SDCI(Smart Data Cache Injection,智能缓存注入)相关功能。其中SDCI功能的特点在于支持设备通过所连接的总线沟通处理器,直接将数据写入处理器的L3缓存,从而绕开传统的“设备-内存-处理器”的模式,在一定程度上节约了内存带宽并降低了延迟。根据AMD提供的SDCI性能对比显示,开启SDCI功能之后,内存带宽占用得到显著降低。
▲AMD在IO方面对AI计算进行了优化并带来了DMA和P2P相关功能。
▲AMD EPYC 9005系列处理器支持CXL 2.0,并支持所有3种CXL设备。
●支持CXL 2.0 更重视CXL内存相关性能
继续看看CXL相关功能。EPYC 9005系列处理器支持CXL 2.0,也支持所有3种CXL协议,但AMD更倾向于支持CXL Type 3(内存扩展功能)。CXL的优势在于,利用PCIe通道作为扩展能够大大扩展设备的内存,或者连接其他通信设备、算力设备等。除了支持的设备类型更多,在CXL特性上,EPYC 9005系列处理器还带来了分层内存的支持,具体包括支持多个CXL设备组合成单个交错的NUMA节点、支持内存以及安全内存的数据迁移、支持“无头”的NUMA节点、支持HV/Guest内存分析等功能。此外,针对x86 QoS功能,用户可以手动对DRAM和CXL内存进行内存带宽控制。
▲AMDEPYC处理器在CXL内存功能方面的支持特性一览表
性能方面,AMD也给出了一些参考数值。比如在使用75% DDR搭配25% CXL以及50% DDR搭配50% CXL的时候,整体吞吐能力最高上升到传统DDR搭配SSD方案的10倍。在延迟方面,同样的对比方法,CXL方案最低只有传统方案的0.55倍,显示出积极的性能提升。
最后我们再看下安全方面。EPYC 9005系列处理器针对安全性的改进相当多,比较关键的新增技术特性有2个,分别是带外错误管理(Out of band error management)和DRAM运行时的后修复技术(DRAM runtime post-package repair)。前者是指在系统级的错误管理中,拥有独立的通道来检测和修复错误,不用占据主要业务通道;后者则是指DRAM的内存硬件故障错误修复可以在操作系统启动操作之后再完成,带来了整体系统安全性的提升。
▲AMD EPYC 9005系列处理器完全满足现代数据中心的需求
0 5
总结
由于EPYC 9005系列处理器家族规模庞大、特性众多且规格复杂,篇幅限制,我们本次仅介绍了该系列处理器一些重要的新特性和新改进。总结来看,AMD EPYC 9005系列处理器有着性能跃进、规模突破、功能优化等特点,它首次融入三种不同的生产工艺,是Chiplet技术下目前最具代表性的产品,也体现了AMD在芯片设计领域的绝对领导力。回顾下来,AMD EPYC系列处理器不仅在参数上,在性能和市场表现上都是一代更比一代强,这正是AMD通过不断的产品迭代赢来的结果。我们很好奇AMD能够将Chiplet技术和EPYC系列处理器带到怎样的高度,因为从技术角度来看,AMD手上能出的牌还有很多,在Chiplet技术形式、封装应用等方面还有大量更先进的技术尚未使用。我们期待未来的EPYC处理器能够在技术实现、技术应用等方面更上一层楼,继续带领行业推动新一轮创新浪潮。
友情提示
MCer请注意,由于微信公众号调整了推荐机制,如果你发现最近很难刷到Microcomputer(微型计算机)公众账号推送的文章,但是又不想错过微机的精彩评测内容,可以动动小手指把Microcomputer设置成星标公众账号哦!
热门跟贴