2月18日,DeepSeek官方在海外社交平台X发布了一篇全新的技术论文,重点介绍了一种名为NSA(Natively Sparse Attention,原生稀疏注意力)的技术。DeepSeek的创始人梁文锋也在论文署名中列为共创者之一。

该论文详细阐述了NSA如何通过硬件对齐优化设计,提升超快速长文本的训练与推理效率,且能够有效降低预训练成本,而不牺牲性能。NSA机制的优势在于,它与现代硬件的高度兼容,使得推理过程得以加速。

这篇论文名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)。(袁宁)