近日,DeepSeek官方在GitHub更新了一系列FlashMLA代码,项目文件有数十处都提到了此前未公开的“MODEL1”大模型标识符。

FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型“推理生成”这一环节。该算法的实现基础MLA(多层注意力机制),是DeepSeek模型(如V2、V3)实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用,最大化地利用GPU硬件。

MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2。据推测,MODEL1很可能是一个高效推理模型,相比V3.2,内存占用更低,适合边缘设备或成本敏感场景。它也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务。它也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务。