算芯合一！华为披露昇腾体系大模型核心算子设计细节|二进制|向量|大模型|昇腾体系|知名企业|算子|算法|设计细节

“算力利用率突破 70%、跨卡延迟低至亚微秒级，华为算子技术如何重新定义硬件性能？”

作者丨李希

AMLA × 融合算子 × SMTurbo —— 让大模型推理速度与能效双重革命

基于昇腾算力，华为团队本次发布了三项重要的硬件亲和算子技术研究：

AMLA：用 “ 数学魔法 ” 重构浮点运算，让昇腾芯片的算力利用率突破 70%！

融合算子优化：像指挥交响乐团一样调度硬件资源，让计算与通信 “无缝协奏”！

SMTurbo：打造内存访问的 “高速公路”，跨 384 卡延迟低至亚微秒级！

大模型推理的 “乐高积木”：算子为何如此重要？

算子是 AI 大模型执行计算的 “原子级工具”，如同乐高积木中的基础模块，负责从加减乘除到特征提取的一切核心操作。它们不仅是模型的效率引擎，更是硬件性能的放大器 —— 通过标准化设计、硬件深度适配与复用机制，让芯片处理海量数据时如虎添翼。而昇腾此次开源的三大技术，正是算子优化的 “终极形态”。

技术全景：三大黑科技如何颠覆 AI 计算？

1、AMLA：以加代乘的“魔法”让芯片算力利用率飙升

“数字炼金术”：对二进制表示重解析，将复杂乘法转换为加法运算，充分利用存内算力，算力利用率飙升至 71%！

针对Decode阶段的MLA 计算，华为团队提出了AMLA（Ascend MLA）算子，通过数学等价变化和硬件亲和的深度优化，释放昇腾芯片澎湃算力。具体而言，通过对浮点数二进制编码的重解析，把复杂的乘法运算变成简单的加法操作，AMLA实现了基于存内计算的变量更新，充分利用算力的同时减少数据搬运；结合一系列基于昇腾硬件的计算流程及流水优化手段，进一步提升算子的整体性能。当前AMLA算法的Attention 算子充分发挥昇腾硬件的计算能力，平均算力利用率达到55%，最高可达71%，优于FlashMLA公开的结果。

2、融合算子优化：硬件资源的 “交响乐指挥家”

将多个算子合而为一，让计算、通信、存储 “三重协奏”！

基于昇腾平台部署 DeepSeek V3/R1 大模型的实践经验，华为团队提炼出三大昇腾算子融合设计原理：硬件单元间并行度优化、冗余数据搬运消除、数学等价重构计算流。首先，利用昇腾芯片的多硬件单元并行的能力，将跨硬件单元串行算子融合为复合算子，通过指令级流水编排实现计算耗时相互掩盖；其次，对串行向量算子实施融合处理，构建全局内存与计算单元缓存的直通数据通道，使中间结果全程驻留高速缓存；最后，华为团队运用数学等价关系解耦算子间数据依赖，重构计算顺序实现并行加速。该技术体系在模型推理中实现了大幅性能提升。

3、SMTurbo：384 卡内存共享的 “超低延迟高速公路”

昇腾原生 Load/Store 语义让跨卡访存延迟进入亚微秒时代！

华为CloudMatrix 384支持384卡规模原生Load/Store语义。因其低延迟、上下文切换代价小、可细粒度流水等优势，受到业界广泛关注。基于共享内存的集合通信满足了小数据量、大范围集合通信场景需求，成为稀疏模型推理的关键能力。

面向原生Load/Store内存语义通信提供软硬件加速能力，ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 将Load/Store在读和写两个方向上并行，发挥了昇腾芯片读写分离的微架构优势；针对数据保序场景下的同步开销问题，引入了批处理与中转机制，降低了控制逻辑的开销。在跨机访存通信场景下，方案可以提升CloudMatrix 384中昇腾芯片每线程的访存吞吐20%以上。

未来与展望

如上提到的三个算子层面优化技术的未来发展上，针对AMLA，将研究仅KVCache 量化和全量化场景的MLA 算子优化，进一步扩展算子应用场景；针对融合算子优化，将进一步探索融合算子在更多模型架构上的应用，推动大语言模型在昇腾硬件上的高效推理与广泛应用；针对L oad/Store 的优化技术，将结合业务设计精巧的流水实现，平衡读写平面的负载分担，将CPP 思想引入Deepseek dispatch 与combine 场景，在大BatchSize下取得实际收益。