金融界2月21日消息,有投资者在互动平台向久其软件提问:您好,近日DeepSeek创始人亲自率队,提出了革命性注意力机制NSA,具体来说,它是一种面向硬件且支持原生训练的稀疏注意力机制(Sparse Attention),专为超快长上下文训练与推理设计。贵司于今年2月10日在互动平台表示在大模型蒸馏方面,公司技术团队主要掌握采用软标签、注意力等蒸馏技术。请问贵司掌握的注意力蒸馏技术和DeepSeek提出的稀疏注意力机制有何异同之处?谢谢。

公司回答表示:关于DeepSeek提出的稀疏注意力机制,公司尚在研究中。

本文源自:金融界

作者:公告君