近日,DeepSeek 团队工程师在 GitHub 向其核心推理内核 FlashMLA 推送了一系列更新,而在这些提交中,一个此前从未公开亮相的模型命名“MODEL1”引发了社区的高度关注。
打开网易新闻 查看精彩图片
根据代码上下文分析,“MODEL1”很可能代表一个不同于现有架构的新模型。
分析认为,“MODEL1”与“V32”(即 DeepSeek-V3.2)在关键技术上存在区别,主要体现在键值(KV)缓存的布局、稀疏性处理方式以及对 FP8 数据格式的解码支持等方面。
这些差异表明新架构可能在内存优化和计算效率上进行了针对性设计。
不少开发者推测,“MODEL1”很可能正是 DeepSeek 内测中的 V3 终极版本(V4 模型),也有人猜测它可能代表一个完全独立于 V 系列的新模型。
打开网易新闻 查看精彩图片
据介绍,DeepSeek 团队工程师为 FlashMLA 提交更新的这一系列代码横跨 114 个文件,其中有 28 处都提到了未知的“MODEL1”大模型标识符。该标识符与已知的现有模型“V32”被并列或区别提及。
打开网易新闻 查看精彩图片
https://github.com/deepseek-ai/FlashMLA/commit/082094b793fcc7452977d0a71a00e266a2e3061e
这里有个小插曲:一名程序员在 FlashMLA 开源仓库就“MODEL1”真诚地提出自己的分析和疑问后:
打开网易新闻 查看精彩图片
没想到竟被 DeepSeek 工程师“点踩”,当场有点破防了:
打开网易新闻 查看精彩图片
https://github.com/deepseek-ai/FlashMLA/issues/155
热门跟贴