打开网易新闻 查看精彩图片

芯东西(公众号:aichip001)
编译 ZeR0
编辑 漠影

芯东西5月15日报道,今日凌晨,谷歌在I/O大会上宣布推出其迄今性能最高、最节能的专用AI芯片——第六代TPU Trillium。该芯片将于今年晚些时候上市。

与上一代TPU v5e相比,Trillium TPU在每个芯片上的峰值计算性能提高了4.7倍,节能67%以上,将高带宽内存(HBM)容量和带宽提高了1倍,并将TPU v5e上的芯片间互连(ICI)带宽提高了1倍。

打开网易新闻 查看精彩图片

为了提高性能水平,Trillium扩大了矩阵乘单元(MXU)的大小并提高了时钟速度。

此外,Trillium还配备了第三代SparseCore,这是一种专门用于处理高级排名和推荐工作负载中常见的超大型嵌入的专用加速器。SparseCore通过战略性地从张量核心中卸载随机和细粒度访问来加速嵌入繁重的工作负载

HBM容量和带宽翻倍后,Trillium可以使用具有更多权重和更大键值缓存的更大模型。

下一代HBM支持更高的内存带宽、更高的功率效率和灵活的信道架构,以增加内存吞吐量。这改善了大模型的训练时间和服务延迟。这是模型权重和键值缓存的两倍,访问速度更快,并且具有更多的计算容量来加速机器学习工作负载。

ICI带宽翻倍,使训练和推理工作能够扩展到数万个芯片,这是由定制光学ICI互连(每个POD中有256个芯片)和Google Jupiter Networking(将可扩展性扩展到集群中的数百个POD)的组合提供支持的。

Trillium可以在单个高带宽、低延迟POD中扩展到256个TPU。除了这种POD级的可扩展性,通过multislice技术和Titanium处理单元(IPU)。Trillium TPU可以扩展到数百个POD,连接数万个芯片,在一个建筑级超级计算机中,通过每秒数petabit的数据中心网络互连。

十多年来,谷歌一直在开发定制的AI专用硬件TPU,以推动规模和效率的发展。

2013年,谷歌开始开发世界上第一个专用AI加速器TPU v1,随后在2017年推出了第一个Cloud TPU。如果没有TPU,谷歌的实时语音搜索、照片对象识别、交互式语言翻译等主流服务以及Gemini、Imagen和Gemma等先进基础模型将不能实现。

TPU的规模和效率为谷歌研究中心的Transformer提供了基础工作,而Transformer是现代生成式AI的算法基础。

在这些基础上研发出的Trillium,将为下一代AI模型和Agent提供动力。例如,自动驾驶汽车公司Nuro通过使用Cloud TPU训练模型,致力于通过机器人技术创造更美好的日常生活;Deep Genomics正在通过AI推动药物发现的未来,并期待着他们的下一个基础模型如何在Trillium的支持下改变患者的生活;谷歌AI年度云合作伙伴德勤将基于Trillium通过生成式AI转变业务。

Trillium TPU是谷歌云AI超级计算机的一部分,这是一种专门为顶尖AI工作负载设计的突破性超级计算架构。它集成了性能优化的基础设施(包括Trillium TPU)、开源软件框架和灵活的消费级模型。

打开网易新闻 查看精彩图片

对JAX和XLA的支持意味着为任何上一代TPU编写的声明性模型描述可以直接映射到Trillium TPU的新硬件和网络功能。谷歌还与Hugging Face合作了Optimum-TPU,以简化模型训练和服务。

结语:下一代基础模型需要更大的计算、存储、通信能力

生成式AI正在改变人们与技术的互动方式,并为商业影响带来巨大的效率机会。这些进步需要更大的计算、内存和通信能力来训练和微调最强大的模型,并以交互方式为全球用户群体提供服务。

谷歌今天发布的Gemini 1.5 Flash、Imagen 3和Gemma 2等新模型都是在TPU上训练并使用TPU提供服务的。Trillium TPU能更快地训练下一代基础模型,并以更低的延迟和更低的成本为这些模型提供服务。

在Trillium TPU上支持长上下文、多模态模型的训练和服务,将使谷歌DeepMind能够比以往更快、更有效、更低延迟地训练和服务未来几代Gemini模型。