“算力利用率突破 70%、跨卡延迟低至亚微秒级,华为算子技术如何重新定义硬件性能?”
作者丨李希
AMLA × 融合算子 × SMTurbo —— 让大模型推理速度与能效双重革命
基于昇腾算力,华为团队本次发布了三项重要的硬件亲和算子技术研究:
AMLA:用 “ 数学魔法 ” 重构浮点运算,让 昇腾 芯片的算力利用率突破 70%!
融合算子优化:像指挥交响乐团一样调度硬件资源,让计算与通信 “无缝协奏”!
SMTurbo:打造内存访问的 “高速公路”,跨 384 卡延迟低至亚微秒级!
大模型推理的 “乐高积木”:算子为何如此重要?
算子是 AI 大模型执行计算的 “原子级工具”,如同乐高积木中的基础模块,负责从加减乘除到特征提取的一切核心操作。它们不仅是模型的效率引擎,更是硬件性能的放大器 —— 通过标准化设计、硬件深度适配与复用机制,让芯片处理海量数据时如虎添翼。而昇腾此次开源的三大技术,正是算子优化的 “终极形态”。
技术全景:三大黑科技如何颠覆 AI 计算?
1、AMLA:以加代乘的“魔法”让芯片算力利用率飙升
“数字炼金术”:对二进制表示重解析,将复杂乘法转换为加法运算,充分利用存内算力,算力利用率飙升至 71%!
针对Decode阶段的MLA 计算,华为团队提出了AMLA(Ascend MLA)算子,通过数学等价变化和硬件亲和的深度优化, 释放昇腾芯片澎湃算力 。具体而言,通过 对浮点数二进制编码的重解析 ,把复杂的乘法运算变成简单的加法操作,AMLA实现了基于 存内计算 的变量更新,充分利用算力的同时减少数据搬运;结合一系列基于昇腾硬件的计算流程及流水优化手段,进一步提升算子的整体性能。当前AMLA算法的Attention 算子充分发挥昇腾硬件的计算能力,平均算力利用率达到55%,最高可达71%,优于FlashMLA公开的结果。
2、融合算子优化:硬件资源的 “交响乐指挥家”
将多个算子合而为一,让计算、通信、存储 “三重协奏”!
基于昇腾平台部署 DeepSeek V3/R1 大模型的实践经验,华为团队提炼出三大昇腾算子融合设计原理:硬件单元间并行度优化、冗余数据搬运消除、数学等价重构计算流。首先,利用昇腾芯片的多硬件单元并行的能力,将跨硬件单元串行算子融合为复合算子,通过指令级流水编排实现计算耗时相互掩盖;其次,对串行向量算子实施融合处理,构建全局内存与计算单元缓存的直通数据通道,使中间结果全程驻留高速缓存;最后,华为团队运用数学等价关系解耦算子间数据依赖,重构计算顺序实现并行加速。该技术体系在模型推理中实现了大幅性能提升。
3、SMTurbo:384 卡内存共享的 “超低延迟高速公路”
昇腾 原生 Load/Store 语义让跨卡访存延迟进入亚微秒时代!
华为CloudMatrix 384支持384卡规模原生Load/Store语义。因其低延迟、上下文切换代价小、可细粒度流水等优势,受到业界广泛关注。基于共享内存的集合通信满足了小数据量、大范围集合通信场景需求,成为稀疏模型推理的关键能力。
面向原生Load/Store内存语义通信提供软硬件加速能力,ShmemTurbo Concurrent Push & Pull (SMTurbo-CPP) 将Load/Store在读和写两个方向上并行,发挥了昇腾芯片读写分离的微架构优势;针对数据保序场景下的同步开销问题,引入了批处理与中转机制,降低了控制逻辑的开销。在跨机访存通信场景下,方案可以提升CloudMatrix 384中昇腾芯片每线程的访存吞吐20%以上。
未来与展望
如上提到的三个算子层面优化技术的未来发展上,针对AMLA,将研究仅KVCache 量化和全量化场景的MLA 算子优化,进一步扩展算子应用场景;针对融合算子优化,将进一步探索融合算子在更多模型架构上的应用,推动大语言模型在昇腾硬件上的高效推理与广泛应用;针对L oad/Store 的优化技术,将结合业务设计精巧的流水实现,平衡读写平面的负载分担,将CPP 思想引入Deepseek dispatch 与combine 场景,在大BatchSize下取得实际收益。
热门跟贴