纵观ICT基础设施的演进轨迹,就是一部在不断涌现的核心矛盾中寻求突破与平衡的历史。从开放架构与封闭体系的竞争,到通用覆盖和专业精耕的博弈,再到业务是否上云的纠结,每个阶段都面临类似“鱼与熊掌”的两难选择。
如今,在人工智能落地需求全面爆发的背景下,AI基础设施也到了“再平衡”的关键节点。如何从纷繁复杂的头绪中梳理出清晰的主线,并针对核心矛盾重点发力,对整个AI产业健康发展具有决定性的意义。
历经多次浪潮的洗礼,AI基础设施主要存在两条进化路线:一条是满足AI工作负载对高密度、高性能的极致要求,驱动技术底座全面重构;另一条是应对愈发严峻的能耗挑战,朝绿色节能方向加速进化。二者相辅相成,不可偏废,而要真正实现“兼得”却殊为不易。
值得关注的是,无论是过往的ICT底座谋求突围,还是当下AI基础设施更上层楼,都离不开CPU发挥纲举目张的重要作用。作为计算单元创新与算力系统变革的中流砥柱,CPU总能在相应的时间窗挺身而出,承担起看似“不可能完成的任务”。
这次也不例外。面对AI在高性能与绿色节能方面的抉择困境,以AMD EPYC为代表的行业先锋迎难而上,其第四代和第五代产品基于芯片架构、创新设计、平台能力等维度多管齐下,在AI时代的“平衡木”上完成高难度的“三连跳”,为行业客户深度拥抱人工智能奠定坚实基础,树立起“左手AI、右手绿色”的崭新标杆。
第一跳:芯片架构是跨越性能与能效鸿沟的核心基石
伴随大模型体量提升与AI应用端急剧拓展,整个人工智能基础设施将朝高密度、高性能与绿色节能协同发展的方向快速演进。
风起于青萍之末,浪成于微澜之间。在AI底座迅猛成长的进程中,CPU扮演着举足轻重的角色,其进化路径备受瞩目——进入后摩尔定律时代,单纯依靠制程微缩方式已难以取得预期效果,必须进行底层架构创新才有望打破瓶颈。
AMD深谙此道,EPYC处理器的核心竞争力正是源于其持续创新的Zen架构:从极富开创性的Zen 4到令人惊艳的Zen 5,每一代架构都在性能与能效方面实现优雅的平衡,为AI工作负载的顺畅运行保驾护航。
以Zen 4架构为例:与上一代处理器相比,其每时钟周期执行指令总数增加约14%,核心与线程数量猛增50%以上,并支持同步多线程,促进芯片性能显著改善,满足AI应用爆发的需求;同时,能效水平亦处于业界领先地位,96核心的热设计功耗只需360W,带动数据中心节能降耗,解除了行业客户拥抱AI的后顾之忧。
大方向明确之后,迭代速度变得至关重要。基于Zen 5架构的AMD EPYC新一代产品在高性能与高能效方面再进一步:不仅支持多达17%的更高每时钟指令数,还能为AI和高性能计算提供约37%的更高IPC,增强了企业的AI洞察能力和部署速度,可满足性能优先型、数据敏感型、绿色节能型等不同类型行业客户的多元需求。此外,新架构非常契合AI基础设施高密、高效的演进方向,可大幅节省数据中心的空间和功耗,这将有助于提升AI算力投资的能效比和ROI水平。
第二跳:创新设计是达成多元诉求均衡的不二法门
如果说底层架构的突破为CPU引领AI基础设施进化创造了必要条件,促进高密度、高性能、低能耗目标的协同达成,那么创新设计则是CPU改变传统模式、构筑新型范式的阶梯,推动AI底座实现性能、成本、能效等要素的动态均衡。
在诸多创新路径中,Chiplet技术无疑是其间的佼佼者。它不再执着于将所有功能都塞进同一块大芯片上,而是像组建高效团队一样,将大任务拆解,让每个领域的“专家”(小芯片)在最适合自己的环境中发挥专长,再通过协作机制将它们紧密连接起来,为应对大模型训练和推理中的多元挑战铺平道路。
显而易见,Chiplet并非单一技术的突破,而是一种系统级的创新思维,其依托工艺组合、3D堆叠、高速互连、专用加速等优势,在提升AI算力峰值的同时,也精细地优化每一瓦电所能换取的性能,开创了高效能计算的先河。当然,要在CPU领域完成这一跨越颇有难度,AMD EPYC让Chiplet的梦想照进现实。
从Genoa到Turin,AMD EPYC践行Chiplet理念,找到了CPU支撑AI工作负载多元诉求的进阶路径:第四代EPYC堪称Chiplet技术成熟的标杆,它通过集成5nm工艺的Zen 4核心芯片和6nm工艺的I/O芯片,达成最高96核的配置,在多项基准测试中展现出显著优势,整机性能和能效比均处于领先地位;第五代EPYC则将Chiplet的灵活性演绎到新高度,虽I/O芯片仍沿用6nm工艺,但其经过升级和调整,可提供两种版本——采用4nm工艺Zen 5经典核心的版本最多可提供128核256线程,以及3nm工艺打造并拥有更密集核心的Zen 5c版本,通过12个CCD实现192核384线程,能满足高性能计算及高并发、低延时等AI应用场景的需求。
以行业客户的视角看,CPU技术创新带来的好处颇为显著。采用EPYC服务器可替代以往的多台服务器,在减少机架数量的同时,依然能保持相当的性能,由此可节省大量的物理占用空间和功耗,以及软件许可证数量,进而降低数据中心的整体能耗和运营成本,形成明显的正反馈效应。
第三跳:平台能力是CPU助推AI迈向纵深的最佳跳板
不难看出,AI应用落地的脚步正逐渐加快,对基础设施的要求也不再停留于单芯片的价值提升。对CPU厂商而言,全方位优化平台能力,与数据中心相关技术协同演进,是在AI时代行稳致远的根本保障。
针对影响CPU整体能力释放的主要痛点,AMD EPYC直面挑战,分别采取适宜的解决方案。为了打破“内存墙”,AMD EPYC引入DDR5内存并支持多达12个通道,其中采用3D V-Cache技术的Genoa-X系列,三级缓存容量更是高达1.1GB,能满足高负载及缓存敏感型AI场景的严苛要求;在I/O扩展性上,EPYC提供128条PCIe通道,支持最新PCIe Gen 5标准,可高效连接加速卡,助力AI应用开发落到实处。
除了打通CPU平台的内部“堵点”,AMD EPYC还基于自身的高性能、高能效优势,与数据中心的集群、散热等先进技术相结合,降低行业客户的总体拥有成本,推动AI普惠时代早日到来。与此同时,AMD将致力于打造软硬协同体系,构建新型的AI生态系统,驱动人工智能基础设施变革迈向新境界。
根据著名经济学家维尔弗雷多·帕累托提出的观点,“帕累托最优”是指在资源分配和组合中达到一种理想状态。从这个意义上讲,处于“再平衡”中的AI基础设施尚未达到最优状态,CPU的进化之旅依然任重而道远。AMD EPYC将在AI的超级赛道上继续奔跑,助力行业客户勾勒更美好的数智化图景。
热门跟贴