4月24日,DeepSeek正式发布并开源DeepSeek V4-Pro与DeepSeek V4-Flash两款模型,将上下文处理长度从128K一举扩展至1M,实现近10倍容量跃升。
华为随即第一时间宣布昇腾超节点全系列产品全面支持该系列模型,通过芯模技术紧密协同,实现模型发布与算力适配的同步推进,为长上下文大模型的工程化落地注入强劲动力。
1、DeepSeek V4系列此次升级有多颠覆性?
DeepSeek首次引入KV Cache滑窗与压缩算法,结合独创混合注意力架构,使V4-Pro在1M上下文场景下单token推理FLOPs仅为V3.2的27%,KV Cache占用降至10%,大幅降低注意计算与访存开销。
同时通过架构创新强化Agent与Coding场景支持,V4-Pro在Agentic Coding评测中已达到开源模型最佳水平,交付质量甚至优于部分闭源竞品。
2、在推理性能层面
昇腾950超节点能实现在8K输入场景下,DeepSeek V4-Pro实现TPOT约20ms、单卡Decode吞吐4700TPS;V4-Flash更胜一筹,TPOT约10ms、单卡Decode吞吐1600TPS。
这些成绩源于三大架构升级:
①原生精度加速支持FP8、MXFP8等格式,内存占用降低50%+;
②稀疏访存优化强化硬件级带宽能力;
③Vector与Cube共享Memory设计减少片上数据搬运,有效降低端到端时延。
昇腾A3超节点系列进一步夯实规模化部署能力,Atlas 900 A3液冷及Atlas 800 A3风冷超节点采用平等架构与全局内存统一编址,点对点互联带宽达784GB/s,支持32至384卡多规格配置。
在实际部署中,基于昇腾A3 64卡超节点结合大EP模式,V4-Flash在8K/1K输入输出场景下通过vLLM引擎可实现单卡Decode吞吐2000+TPS,充分满足互联网、运营商、金融等行业高并发需求。
华为云同步发力,宣布首发适配DeepSeek V4,其MaaS平台已为开发者提供免部署、一键调用V4-Flash API的Tokens服务。
通过系统层、算子层和集群层的协同优化,从调度效率、计算效率和数据流转效率三个维度保障新模型快速适配与高性能落地,金山办公、360等企业已率先通过华为云接入新模型。
3、开发生态方面
昇腾CANN推出PyPTO编程范式,使相关算子开发周期缩短至天级,配套TileLang-Ascend在TileAI社区开源实现,加速性能优化与功能迭代。
整体来看,DeepSeek V4在模型侧通过1M上下文、结构压缩与Agent能力提升,显著扩展应用边界;
华为昇腾则在算力侧以950与A3超节点为核心,通过10ms/20ms低时延、1600TPS/4700TPS及2000+TPS高吞吐、784GB/s大规模互联等指标实现工程化承接。
二者同步推进,不仅让长上下文、高性能推理、规模化部署的组合路径更加清晰,更反映出开源模型与国产算力体系在协同演进中的加速态势,为AI产业“去英伟达化”提供坚实技术支撑。