本文由半导体产业纵横(ID:ICVIEWS)编译自tomshardware
英伟达通过销售H20,赚了数百亿美元。
英伟达在 2023 年和 2024 年的飙升得益于人工智能领域对 GPU 的爆炸性需求,主要是在美国、中东国家和中国。
为了将AI GPU加速器卖给中国,NVIDIA接连打造了多款缩水的特供版,从早期的A800、H800到后来的H20、L20、L2。
其中,H20是最让中国客户满意的,因为它基于新的Hopper架构,主要做训练(L20/L2都是中国不太需要的Ada架构推理卡),销量也是节节攀升。
由于美国存在出口限制,并且英伟达无法在没有政府出口许可的情况下将其最高端的 Hopper H100、H200 和 H800 处理器出售给中国,因此它转而将其削减版的HGX H20 GPU 出售给中国实体。
然而,分析师Claus Aasholm表示,尽管削减了,但 HGX H20 的销售表现却异常出色。
Aasholm 写道:“通过了中国禁令的降级版 H20 系统表现非常好,环比增长 50%,这是英伟达最成功的产品。H100 业务仅环比增长 25%。”
根据 Claus Aasholm 的发现,尽管 HGX H20 GPU 的性能与成熟的 H100 相比大幅下降,但英伟达仍通过销售该 GPU 赚取了数百亿美元。人工智能确实是推动几乎所有类型的数据中心硬件销售的大趋势,包括英伟达的 Hopper GPU,包括 HGX H20。
世界主要经济体——美国和中国——正在竞相获得最大的人工智能能力。对于美国来说,增长或多或少是自然而然的:更多的资金和更多的硬件等于更高的能力,但这还不够。OpenAI 本身就赚了数十亿美元,但它需要更多的钱来获得更多的硬件,从而获得人工智能训练和推理能力。
尽管存在种种限制,但中国的人工智能能力(无论是硬件还是大型模型开发)仍在不断扩大。就在上周,中国人工智能公司 Deepseek 在一篇论文中透露,它已经在 2,048 个英伟达H800 GPU 集群上训练了其 6710 亿参数的 DeepSeek-V3 混合专家 (MoE) 语言模型,耗时两个月,共计 280 万个 GPU 小时。
相比之下,Meta 投入了 11 倍的计算资源(3080 万个 GPU 小时)来训练拥有 4050 亿个参数的 Llama 3,耗时 54 天,使用了 16,384 个 H100 GPU。
随着时间的推移,中国本土的 Biren Technologies 和 Moore Threads 等公司推出的加速器可能会蚕食英伟达目前在中国数据中心的近乎垄断地位。然而,这不可能一蹴而就。
英伟达年终大礼,最强AI GPU曝光
根据SemiAnalysis的最新爆料,B300 GPU对计算芯片的设计进行了优化,并采用了全新的TSMC 4NP工艺节点进行流片。
相比于B200,其性能的提升主要在以下两个方面:
1. 算力
FLOPS性能提升50%
功耗增加200W(GB300和B300 HGX的TDP分别达到1.4KW和1.2KW;前代则为1.2KW和1KW)
架构改进和系统级增强,例如CPU和GPU之间的动态功率分配(power sloshing)
2. 内存
HBM容量增加50%,从192GB提升至288GB
堆叠方案从8层HBM3E升级为12层
针脚速率保持不变,带宽仍为8TB/s
序列长度的增加,导致KV Cache也随之扩大,从而限制了关键批处理大小和延迟。
因此,显存的改进对于OpenAI o3这类大模型的训练和推理至关重要。
下图展示了英伟达H100和H200在处理1,000个输入token和19,000个输出token时的效能提升,这与OpenAI的o1和o3模型中的思维链(CoT)模式相似。
H100到H200的升级,主要在于更大、更快的显存:
更高的带宽使交互性能普遍提升了43%(H200为4.8TB/s,而H100为3.35TB/s)
更大的批处理规模,使每秒token生成量提升了3倍,进而使成本也降低了约3倍
而对运营商而言,这H100和H200之间的性能与经济差异,远远超过技术参数的数字那么简单。
首先,此前的推理模型时常因请求响应时间长而影响体验,而现在有了更快的推理速度后,用户的使用意愿和付费倾向都将显著提高。
其次,成本降低3倍的效益,可是极为可观的。仅通过中期显存升级,硬件就能实现3倍性能提升,这种突破性进展远远超过了摩尔定律、黄氏定律或任何已知的硬件进步速度。
最后,性能最顶尖、具有显著差异化优势的模型,能因此获得更高溢价。
SOTA模型的毛利率已经超过70%,而面临开源竞争的次级模型利润率仅有20%以下。推理模型可突破单一思维链限制,通过扩展搜索功能提升性能(如o1 Pro和o3),从而使模型更智能地解决问题,提高GPU收益。
SemiAnalysis 表示,英伟达计划明年推出的 B300 Tensor Core GPU 对设计进行了调整,将在台积电 4NP 定制节点上重新流片,整体来看可较 B200 GPU 提升 50% 算力。
经济日报发布博文,英伟达(Nvidia)携手台积电(TSMC)等供应链合作伙伴,为迎接新一轮 AI 热潮,同时也是为巩固其在 AI 领域的领先地位,已提前启动下一代 Rubin 平台研发工作,原定 2026 年亮相的芯片有望提前 6 个月推出。
Rubin 是继 Blackwell 之后的下一代 AI GPU 架构,原计划于 2026 年发布,最新消息称将提前至 2025 年下半年,将采用台积电 3nm 工艺和下一代 HBM4 显存,大幅提升 AI 计算性能。
消息称英伟达正与供应链合作伙伴紧密合作,共同开发基于 R100 的 AI 服务器,与此同时台积电计划扩大 CoWoS 先进封装产能,以满足 Rubin 芯片的预期需求,目标是在 2025 年第四季度将 CoWoS 月产能提升至 8 万片。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
热门跟贴