客户现在可以在其云服务中访问谷歌自主开发的硬件——Axion CPU和最新的Trillium TPU。与此同时,谷歌向客户展示了英伟达的Blackwell即将进入谷歌云的预告片,预计将于明年初推出。
谷歌云计算和人工智能基础设施副总裁兼总经理Mark Lohmeyer在一篇博客中表示:“我们……热切期待英伟达的Blackwell GB200 NVL72 GPU带来的进步,我们期待着很快分享这一激动人心的发展的更多更新。”
谷歌过去曾将其TPU与Nvidia的GPU进行过正面比较,但这种语气已经软化。该公司正在采取措施,通过专门的硬件,如与Nvidia硬件接口的新网络适配器,将Nvidia的AI硬件进一步集成到Google Cloud HPC和AI消费模型中。谷歌希望在系统层面为客户的云服务带来硬件和软件的一致性,而不管技术来自谁。
这是芯片行业又一次角色逆转,竞争对手纷纷和解。AMD和英特尔最近联手在人工智能时代保持x86的繁荣,谷歌正试图将客户转移到其硬件进行推理,同时给予Nvidia的硬件同等地位。谷歌认识到,其云服务的多样性对企业有利,对GPU的需求是无法满足的。
对AI硬件的需求是压倒性的。Nvidia的GPU也供不应求,客户已经转向谷歌的TPU。谷歌的新TPU,名为Trillium,现在可以预览。它取代了TPU v5产品,并提供了显著的性能改进。
该公司已将其TPU重新命名为Trillium,它基本上是一个TPUv6。Trillium是在TPUv5之后一年宣布的,考虑到TPUv4到TPUv大约需要三到四年的时间,这一速度令人惊讶。
在测量BF16数据类型时,Trillium芯片的峰值计算性能是TPU v5e的4.7倍。TPUv5e BF16的峰值性能为197 Teraflops,这应该使Trillium的BF16峰值性能达到925.9 Teraflops。然而,与所有芯片一样,现实世界的性能从未达到理论估计。
TPU v5e的197 Teraflops BF16性能实际上从TPUv4的275 Teraflops下降后,性能提升是意料之中的。
谷歌分享了一些现实世界的人工智能基准。Trillium上的文本到图像稳定扩散XL推理比TPU v5e快3.1倍,而在具有270亿个参数的Gemma2模型上的训练快4倍。1750亿参数GPT3的训练速度大约快三倍。
Trillium拥有一系列芯片改进。它的HBM内存是TPU v5e的两倍,TPU v5e具有16GB的HBM2容量。谷歌没有澄清Trillium是否有HBM3或HBM3e,后者位于Nvidia的H200和Blackwell GPU中。HBM3e内存的带宽比HBM2内存大。与TPU v5e相比,谷歌还将Trillium的芯片间接口通信增加了一倍,TPU v5e为1600Gbps。
装有TPU的超级计算机可以通过将数万个Pod互连来组装,每个Pod都有256个Trillium芯片。谷歌开发了一种名为Multislice的技术,该技术通过每秒数PB的数据中心网络将大型AI工作负载分布在数千个TPU上,同时确保高正常运行时间和能效。
Trillium还通过第三代SparseCores获得了性能提升,这是一种更接近高带宽内存的中间芯片,大部分AI处理都发生在高带宽内存中。
谷歌的第一个CPU Axion旨在与Trillium配对。谷歌正在虚拟机中单独提供这些芯片用于推理。谷歌表示,基于ARM的Axion CPU可在其C4A VM产品中使用,并为Web服务、分析和数据库等工作负载提供“比当前一代基于x86的同类实例高65%的性价比和高达60%的能效”。
但对这些基准持保留态度。在某些时候,需要更强大的x86芯片来处理数据库和ERP应用程序。Phoronix提供了新的独立Google Cloud Axion与x86实例基准测试。
连接Nvidia和谷歌的云
Nvidia的H200 GPU终于可以在A3 Ultra虚拟机的Google Cloud中使用。谷歌正通过高速网络将其硬件基础设施直接连接到英伟达的硬件接口。核心是Titanium,它是一个硬件接口,允许Google Cloud在工作负载、流量和安全管理方面平稳高效地运行。
谷歌推出了一款新的Titanium ML网络适配器,该适配器包括并“建立在英伟达ConnectX-7硬件的基础上,以进一步支持VPC、流量加密和虚拟化。”
Lohmeyer说:“虽然人工智能基础设施可以从Titanium的所有核心功能中受益,但人工智能工作负载在加速器到加速器的性能要求方面是独一无二的。”该适配器创建了一个虚拟化层,该层运行虚拟私有云环境,但可以利用各种AI硬件,包括Nvidia的环境。
目前尚不清楚Titanium ML接口是否允许客户在运行统一AI工作负载时连接或切换谷歌的Trillium和Nvidia GPU。Lohmeyer此前曾声称正在容器中实现这一概念。
Nvidia的硬件已经为GPU优化的卸载系统提供了蓝图。谷歌已经有了一个系统,可以优化其云服务中的GPU工作负载管理。超级计算机接口包括一个“日历”消费模型,该模型定义了任务应该何时开始和结束。“Flex Start”模型可以保证任务何时结束并交付结果。
在HPC(高性能计算)工作负载方面,推出了Google Hypercluster,通过API调用为客户提供预定义工作负载的一键部署。Hypercompute集群自动化了网络、存储和计算管理,否则管理起来可能会很复杂。部署包括流行的AI模型和HPC工作负载。谷歌追随AWS的脚步,推出了SLURM(用于资源管理的简单Linux实用程序)调度程序,该程序允许客户在HPC集群中编排自己的存储、网络和其他组件。
热门跟贴