训练大模型选TPU还是GPU？这笔账得细算

报错免疫体

2026-04-28 08:30 ·北京

一个AI工程师在2025年面临的真实选择：同样跑完一次训练，电费账单可能差出3倍。这不是夸张，是Google和NVIDIA两条技术路线的本质差异。

GPU的统治是怎么来的

图形处理器（GPU）的本职工作是渲染画面。每秒60帧的显示器，意味着它要在一秒内完成60次完整的像素计算——颜色、纹理、光照，全部并行处理。这种"暴力并行"的架构，恰好撞上了深度学习的需求。

2006年是个关键节点。NVIDIA推出CUDA（统一计算设备架构），让科研人员能用相对简单的代码调用GPU的并行计算能力。在此之前，写GPU程序是图形学专家的专利。CUDA把门槛砍到了地板价。

2010年代初机器学习爆发，研究者发现：训练神经网络需要的矩阵运算，和渲染3D场景的数学结构几乎一样。GPU从游戏硬件变成了AI基础设施。一个ML工程师白天跑模型、晚上打《英雄联盟》，用的是同一张卡——这种灵活性让GPU生态滚起了雪球。

AMD后来推出了ROCm（Radeon开放计算平台）作为开源替代方案。虽然市场占有率仍低于CUDA，但差距在缩小。Meta最近续约扩大与AMD的合作，说明第二选项正在变得可行。

TPU的诞生：Google算了一笔数据中心账

2010年代初，Google内部有个精确到季度的预测：AI工作负载——特别是搜索和相册等产品的深度学习应用——会让数据中心的计算需求每18个月翻一倍。

按这个速度扩建通用硬件，电费、散热、机房空间都会变成黑洞。Google的选择是造专用芯片。

2015年，张量处理器（TPU）开始内部部署。这是专为神经网络设计的ASIC（专用集成电路），把硬件电路直接刻成矩阵运算的形状。代价是灵活性——TPU只能干这一件事。收益是能效：同样算力下，功耗和散热需求远低于CPU或GPU。

2016年Google I/O首次公开TPU存在。2018年，Cloud TPU v2向外部开放，开发者第一次能用上Google自家AI系统同款加速器。产品分两个档位：效率型满足成本敏感场景，性能型压榨极限算力。

正方：TPU派的核心论点

能效比是TPU的杀手锏。专用电路没有GPU那种"通用包袱"，每瓦特电力都花在矩阵乘法上。数据中心规模放大后，电费差异会以百万美元计。

Google的垂直整合也是优势。从芯片设计到TensorFlow框架再到云服务，全栈优化意味着更少的手动调参。对不想深究硬件细节的工程师，这是隐性成本节约。

Cloud TPU的按需计费模式，让中小企业能蹭到原本只有科技巨头才买得起的算力。不用预付硬件款，按训练时长付费——现金流友好。

反方：GPU派的反击依据

生态锁定是硬现实。CUDA积累了18年的软件栈：PyTorch、JAX、数千个优化过的算子库。迁移到TPU需要改用XLA编译器，部分代码要重写。时间也是成本。

灵活性差距客观存在。GPU能同时处理训练、推理、图形渲染、科学模拟。TPU只擅长前两者，且对非标准模型架构支持有限。研究型项目经常要试错各种结构，GPU是更安全的默认选项。

硬件获取的便利性不同。NVIDIA显卡从云端到本地工作站无缝覆盖。TPU几乎只能通过Google Cloud租用，地理区域和配额都受限。需要私有化部署的场景——比如某些金融监管要求——TPU直接出局。

我的判断：没有 universally better，只有 contextually cheaper

这场辩论的陷阱是把它当成宗教战争。实际决策应该拆成三个变量：

第一，工作负载的稳定性。如果模型架构已经定型、训练流程标准化——比如推荐系统或广告模型的日常迭代——TPU的能效优势会累积成显著的成本优势。Google内部的大规模生产负载就是活案例。

第二，团队的迁移成本。现有代码库深度绑定CUDA？团队没有XLA经验？这些隐性成本可能吃掉硬件节省的电费。新团队从零启动，或者已有TensorFlow/XLA积累，决策天平会倾斜。

第三，供应链的弹性需求。单一云厂商依赖是真实风险。GPU的多供应商格局（NVIDIA、AMD、Intel）和跨云可移植性，对需要谈判筹码或灾备方案的企业是保险条款。

2025年的现实是：TPU在特定场景证明了自己，但GPU的通用性护城河仍然宽阔。最理性的策略不是站队，而是让工作负载属性决定硬件选择——同时保持代码的抽象层足够薄，以便未来切换。

那个电费差3倍的场景真实存在，但它只发生在"一切条件对齐"的情况下。工程师的价值，在于识别自己的条件是否对齐。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴