DeepSeek 梁文锋携手北大张铭，斩获 ACL 2025 最佳论文！|acl|deepseek|北大|梁文锋|研究论文

7月27日至8月1日，第63届国际计算语言学年会 ACL 2025在奥地利维也纳举行。今年大会投稿量再创新高，总计收到超过8000篇投稿。

本次ACL共有4篇最佳论文，2篇最佳社会影响力论文，3篇最佳资源论文，3篇最佳主题论文，26篇杰出论文，以及TACL最佳论文，最佳Demo，时间检验奖等若干奖项。

根据现场官方的数据，在所有论文的第一作者中，超过半数（51.3%）来自中国，美国作者数量紧随中国之后居第二，占比为14.0%；韩国排名第三，占比为5.2%。

DeepSeek 梁文锋 & 北大张铭等合作斩获 ACL 2025 最佳论文！

2025 年 7 月 30 日，在奥地利维也纳举行的 ACL 2025 颁奖典礼上，DeepSeek梁文锋、曾旺丁和北大张铭教授作为通讯作者发表的题为《Native Sparse Attention: Hardware - Aligned and Natively Trainable Sparse Attention》的研究论文荣获最佳论文奖。

论文第一作者：北京大学计算机学院硕士生袁境阳（北京大学，导师为张铭教授），合作者包括高华佐（DeepSeek），代达劢（DeepSeek），罗钧宇（北京大学）、肖之屏（华盛顿大学）等。

有猜测认为，该技术可能会被应用于下一代 DeepSeek - V4 以及 DeepSeek - R2 中，有望推动自然语言处理领域的发展。

该论文提出了原生稀疏注意力（NSA）机制，通过算法与硬件优化相结合，实现了高效的长文本建模。NSA 采用动态分层稀疏策略，将粗粒度 token 压缩与细粒度 token 选择相结合，同时保持全局上下文感知和局部精确性。实验显示，NSA 在处理 64k 长度序列时，相较于全注意力机制，在解码、前向传播和后向传播等方面实现了显著加速，长文本处理速度最高提升 11.6 倍，且在通用基准测试中性能反超传统全注意力模型。此外，NSA 还支持端到端训练，能在不牺牲模型性能的前提下减少预训练计算量。

长文本处理能力是新一代语言模型的关键需求，但传统注意力机制带来的巨大计算开销一直是一个棘手的问题。在这种背景下，稀疏注意力机制展现出了提升计算效率同时又能保持模型性能的巨大潜力。

本文提出了一种名为NSA的创新性稀疏注意力机制，它能够原生支持训练，通过将算法创新与硬件优化相结合，实现了高效的长文本处理。NSA采用了动态分层的稀疏策略：在保证全局信息获取的同时，还能够精确捕捉局部细节，这得益于其巧妙结合了粗粒度的令牌压缩和细粒度的令牌选择。我们的主要创新点有两个：一是通过精心设计的算法平衡了计算密度，并针对现代硬件做了专门优化，显著提升了运行速度；二是实现了端到端的训练模式，在确保模型性能的前提下大幅降低了预训练的计算量。

实验结果显示：采用NSA预训练的模型在通用基准测试、长文本处理和指令推理等多个任务上，性能均达到或超过了使用完整注意力机制的模型。此外，在处理64k长度序列时，无论是decoding、前向传播还是反向传播，NSA都展现出了显著的速度优势，充分证明了它在模型全生命周期中的高效性。

原生稀疏注意力（Native Sparse Attention，NSA）论文的Meta Review的OA分数为4.5分，已被推荐角逐最佳论文。

编辑、审核：大可