来源:市场资讯

(来源:伏白的交易笔记)

一. 谷歌TPU概览

谷歌TPU(张量处理单元)是专为AI/机器学习设计的ASIC芯片,核心目标是优化矩阵运算,解决传统通用芯片的效率与能耗瓶颈。

目前谷歌TPU已迭代至v7(Ironwood),支撑搜索、Gemini大模型训练与推理等业务,并通过Google Cloud向外部客户提供云服务。

1.1 ASIC芯片解析

ASIC(专用集成电路)是专为特定应用或场景定制的芯片,通过固化硬件逻辑实现性能和能效的极大提升。

在AI领域,ASIC包括TPU(张量处理器)、DPU(数据处理器)、NPU(神经网络处理器)、LPU(语言处理单元)等种类。

1.2 TPU与GPU比较

(1)GPU:通用并行计算架构(SIMT),通过大量CUDA核心实现并行处理,适合图形渲染、通用运算等多种任务。

(2)TPU:完全舍弃通用计算模块,专注AI任务(推理及训练);采用脉动阵列架构优化张量运算,能效比更高。

1.3 谷歌v7与英伟达B200比较

(1)B200:FP8算力4500TFLOPS、192GB HBM3e内存、带宽8.0TB/s、功耗700W。

(2)v7:FP8算力4600TFLOPS、192GB HBM3e内存,带宽7.4TB/s、功耗157W。

1.4 TPU硬件架构

(1)计算单元:脉动阵列(乘法累加单元MAC互连形成物理矩阵),并引入TensorCore(浮点运算)、SparseCore(负责稀疏数据)。

(2)存储单元:采用分层设计,包括HBM(高带宽内存)、片上缓存(缓存高频数据,减少HBM访问次数)。

(3)互联单元:通过ICI技术(TPU芯片间高速互联)实现协同计算。

打开网易新闻 查看精彩图片

二. 谷歌TPU部署场景(除自用)

(1)TPU VM

TPU的核心部署场景为Google Cloud(GCP),其提供云端算力服务;

TPU VM是GCP推出的TPU虚拟机服务,将TPU与CPU、存储等高度整合,用户可按需租用,无需自行搭建服务器。

(2)TPU Pod集群

数千个TPU互联的超大规模集群,通过OCS技术动态调整集群拓扑。

(3)第三方托管

谷歌长期采用自研自托管策略,仅有限开放给第三方,如Fluidstack等云服务商(CSP)。

三. 谷歌TPU供应链

3.1 芯片环节

(1)芯片设计:谷歌自研,合作方联发科、博通。

(2)晶圆制造与封装:台积电,采用CoWoS封装(HBM与TPU集成)。

(3)测试:日月光。

3.2 硬件配套

(1)模组代工:天弘科技、纬创力、工业富联。

(2)HBM:SK海力士、三星。

(3)PCB/CCL:沪电股份、胜宏科技、深南电路、欣兴电子;松下、台光。

(4)光模块:中际旭创、新易盛。

(5)液冷:维谛技术、英维克。

(6)电源模块:台达、光宝、新雷能。