一行代码泄漏的新架构标识,正悄然揭示这家中国AI独角兽在轻量化与专用化赛道上的战略转向。

01

开源社区的狂欢

2026年1月20日,DeepSeek-R1发布一周年之际,一位开发者在DeepSeek官方GitHub仓库更新的FlashMLA代码中发现了一个神秘标识——“MODEL1”。这个隐藏在114份文件、数十处代码注释中的名字,迅速点燃了全球AI社区的好奇心。

打开网易新闻 查看精彩图片

恰逢Hugging Face发布《“DeepSeek时刻”一周年》博客,盛赞R1对全球开源生态的重塑作用1,MODEL1的现身仿佛一场精心编排的周年献礼。

它究竟是V4的雏形、R2的前奏,还是DeepSeek第三条技术路线的起点?更关键的是:曾以推理能力惊艳世界的R系列,会被放弃吗?

02

时代的技术竞赛

根据对代码库的详细分析,MODEL1展现出与当前旗舰模型DeepSeek-V3.2(代码中标识为V32)完全不同的技术路径。在总计114个文件中,MODEL1被提及28至31次,且被置于与V3.2平行的独立分支中,这明确表明它并非现有模型的简单迭代,而是一个全新的架构序列。

架构层面的标准化回归是MODEL1最显著的特征之一。

打开网易新闻 查看精彩图片

DeepSeek V3系列曾采用独特的576维非对称MLA设计(128维RoPE + 448维Latent),而MODEL1则将head_dim参数重新设定为512维。这一“回归标准”的动作并非技术倒退,而是DeepSeek可能已经找到了无需依赖非标维度也能实现高压缩率的新方法。

代码中提及的Engram机制或许就是关键所在,这种机制被认为是DeepSeek在分布式存储或KV压缩上的新突破。通过更完美的GPU Tensor Core计算特性对齐,MODEL1在换取更高计算通用性的同时,可能实现了更优的性能表现。

对下一代硬件的深度适配是MODEL1的另一大亮点。代码库中出现了大量针对英伟达最新Blackwell架构(SM100)的专门优化,包括SM100接口和B200显卡的专用内核实现。

打开网易新闻 查看精彩图片

特别值得注意的是,SM100的Head128实现仅支持MODEL1,而不支持V3.2,这被解读为DeepSeek为适配新一代硬件专门优化了新架构。测试数据显示,在尚未完全优化的状态下,MODEL1的稀疏算子在B200上已能达到350 TFlops的算力利用率,显示出其技术前瞻性。

计算效率的显著提升通过引入“Token-level Sparse MLA”机制得以实现。代码中出现了test_flash_mla_sparse_decoding.py测试脚本和FP8 KV Cache混合精度支持。这意味着DeepSeek正在将MLA机制从“全量计算”进化为“Token级稀疏计算”,允许模型在处理超长上下文时动态忽略不重要的Token,从而在显存占用和推理速度上实现数量级优化。

此外,MODEL1每个token的KVCache大小为584字节,相比V3.2的592字节有所减少,在32K长度序列中可节省约256KB内存,这对于边缘设备部署具有重要意义。

03

战略迷雾

V4、R2,还是第三条路线?

MODEL1引发的最大悬念是其产品定位。目前线索指向三种可能:

猜想1:旗舰全能模型V4

此前传闻DeepSeek将于2月发布V4,且编程能力“超过现有顶级模型”1。MODEL1对长序列(16K+)的优化、对文档与代码场景的适配,符合V系列“全能专家”定位。

猜想2:新一代推理专家R2

其稀疏计算、FP8解码、低内存特性完美契合R系列“高效率解题专家”基因。开发者社区认为它可能是“针对大规模推理优化的R1继任者”,甚至实现“双RTX 4090运行1M上下文”。

猜想3:架构层通用底座,支持V与R双线迭代

最可能的情形是:MODEL1并非具体产品,而是新一代基础架构,可同时衍生V系列(重知识广度)和R系列(重推理深度)——类似“芯片级创新”,上层可灵活封装不同能力。

04

R系列的价值重估

在MODEL1引发广泛关注的同时,业界对R系列未来命运的担忧不无道理。

打开网易新闻 查看精彩图片

DeepSeek-R1在后训练阶段大规模使用强化学习技术,在仅有很少标注数据的情况下极大提升了模型的推理能力。与传统的监督微调不同,R1开创了一种纯粹的强化学习方法,通过基于规则的奖励系统引导模型进行逻辑推理。

这种“推理即训练”的自我进化机制,突破了自GPT大模型以来的人类输入瓶颈,在数学、代码、自然语言推理等任务上达到了与OpenAI o1正式版接近的性能。

2025年12月,DeepSeek同时发布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale两款模型,前者被形容为“话少活好”的助手,主打高性价比与日常使用;后者则像“偏科”的科研天才,专攻高难度数学问题求解和学术研究逻辑验证。

打开网易新闻 查看精彩图片

这种产品分化策略表明,DeepSeek早已认识到不同应用场景对模型能力的差异化需求。R系列作为专门优化的推理模型,与通用对话模型V系列形成了良好的互补关系。

同时,成本控制的突破性是R系列的另一重要价值。

据DeepSeek技术报告,DeepSeek-V3的训练成本仅为557.6万美元,远低于OpenAI的GPT-4(1-2亿美元)和谷歌的Gemini(2亿美元)。R1不仅继承了这种成本控制能力,还通过模型蒸馏技术将推理能力压缩到小至15亿参数的小模型中。

令人惊讶的是,R1的15亿参数蒸馏模型在数学基准测试中能够优于更大的专有模型,在AIME上获得28.9%的分数,在MATH上获得83.9%的分数。这种“四两拨千斤”的技术路线,正是DeepSeek能够在算力受限环境下实现突破的关键。

05

从单一产品到生态矩阵的构建

自2025年2月起,华为云、阿里云、百度智能云、字节火山引擎、腾讯云等国内主要云厂商纷纷宣布上线DeepSeek模型。紧随其后的是各大国产芯片厂商,包括沐曦、天数智芯、摩尔线程、壁仞科技等十数家企业宣布完成了对DeepSeek模型的适配和上线。

由于DeepSeek打破了对高算力的约束限制,国产芯片的利用率得到极大提升。在应用层,金融、医疗、制造、通讯等各行各业都在积极接入DeepSeek模型,希望借助其能力升级自身服务。

从代码结构看,MODEL1并非V3.2的简单缩小版,而是不同的架构选择。V3.2追求最大性能和精度,MODEL1则可能追求效率和可部署性。社区对MODEL1的身份有多种猜测:一种观点认为它可能是一个追求极致效率的轻量级模型,更适合边缘设备部署;另一种分析则指向它可能是一个“长序列专家”,专门为处理超长文档或代码项目而生。

更深入的代码解读发现,MODEL1支持动态稀疏推理和额外的缓存区,这些设计可能旨在提升复杂任务(如智能体应用)的调度能力。

综合以上分析,我们可以得出一个明确的结论:R系列不会被放弃,而是会在DeepSeek的技术演进中扮演新的角色。