DeepSeek新模型曝光

i黑马

2026-01-22 09:23 ·北京 ·《i黑马》官方网易号

近日，DeepSeek官方在GitHub更新了一系列FlashMLA代码，项目文件有数十处都提到了此前未公开的“MODEL1”大模型标识符。

FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具，专门加速大模型“推理生成”这一环节。该算法的实现基础MLA（多层注意力机制），是DeepSeek模型（如V2、V3）实现低成本、高性能的关键技术之一，用于在模型架构层面减少内存占用，最大化地利用GPU硬件。

MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一，另一个是DeepSeek-V3.2。据推测，MODEL1很可能是一个高效推理模型，相比V3.2，内存占用更低，适合边缘设备或成本敏感场景。它也可能是一个长序列专家，针对16K+序列优化，适合文档理解、代码分析等长上下文任务。它也可能是一个长序列专家，针对16K+序列优化，适合文档理解、代码分析等长上下文任务。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴