哈喽,大家好,杆哥这篇评论,主要来分析硬核协同!英伟达软硬件升级 让DeepSeek-R1吞吐量飙升36倍

打开网易新闻 查看精彩图片

2026年1月,AI圈接连迎来重磅消息。先是DeepSeek毫无预兆地更新R1论文,从22页扩充至86页,公开了完整训练路径等核心细节。

紧接着英伟达发布长文博客,曝光其通过Blackwell GPU与软件栈的软硬协同,让这款2025年1月20日发布的6710亿参数开源大模型,推理成本再降32倍。

行业痛点:Token需求激增倒逼降本

打开网易新闻 查看精彩图片

随着AI智能程度提升,从普通消费者到大型企业,与AI的交互频率大幅增加。

打开网易新闻 查看精彩图片

这直接导致需要生成的Token数量呈指数级增长,如何以最低成本提供这些Token,成为AI平台的核心挑战,极高的每瓦特Token吞吐量成为关键目标。

打开网易新闻 查看精彩图片

核心方案:GB200 NVL72+TensorRT-LLM的性能飞跃

打开网易新闻 查看精彩图片

英伟达给出的解决方案,核心是GB200 NVL72系统与最新TensorRT-LLM软件的协同。

该系统通过第五代NVLink连接72个Blackwell GPU,提供1800 GB/s双向带宽,专为DeepSeek-R1的MoE稀数架构优化。

配合Blackwell架构对NVFP4数据格式的硬件加速,以及Prefill与Decode分离的解耦服务技术,在8K/1K和1K/1K序列长度下,Token吞吐量实现大幅提升。

打开网易新闻 查看精彩图片

更关键的是,过去三个月内,单个Blackwell GPU在8K/1K序列下的吞吐量提升达2.8倍。

技术支撑:三大优化技术筑牢降本根基

这些性能突破背后,离不开三项核心技术的支撑。

首先是扩大程序化依赖启动的应用,降低核函数启动延迟;其次是底层核函数优化,更高效利用Tensor Core;最后是优化All-to-all通信原语,消除额外缓冲区。

打开网易新闻 查看精彩图片

业内解读显示,自2025年1月以来,英伟达已让DeepSeek-R1吞吐量提升36倍,单Token推理成本降至原来的1/32。

多元适配:HGX B200平台的双技术加持

打开网易新闻 查看精彩图片

除了高端的GB200 NVL72,英伟达还针对HGX B200平台推出优化方案。

该平台由八个Blackwell GPU组成,通过多Token预测(MTP)和NVFP4技术的双重加持,在风冷环境下也实现了性能大幅提升。

NVFP4格式在完整软件栈上的应用,既保证了性能,又维持了模型精度,让不同硬件平台都能高效运行DeepSeek-R1。

打开网易新闻 查看精彩图片

英伟达表示,将持续提升技术堆栈性能,帮助用户基于现有硬件持续提升大模型工作负载效率。