一行代码泄漏的新架构标识,正悄然揭示这家中国AI独角兽在轻量化与专用化赛道上的战略转向。
01
开源社区的狂欢
2026年1月20日,DeepSeek-R1发布一周年之际,一位开发者在DeepSeek官方GitHub仓库更新的FlashMLA代码中发现了一个神秘标识——“MODEL1”。这个隐藏在114份文件、数十处代码注释中的名字,迅速点燃了全球AI社区的好奇心。
恰逢Hugging Face发布《“DeepSeek时刻”一周年》博客,盛赞R1对全球开源生态的重塑作用1,MODEL1的现身仿佛一场精心编排的周年献礼。
它究竟是V4的雏形、R2的前奏,还是DeepSeek第三条技术路线的起点?更关键的是:曾以推理能力惊艳世界的R系列,会被放弃吗?
02
时代的技术竞赛
根据对代码库的详细分析,MODEL1展现出与当前旗舰模型DeepSeek-V3.2(代码中标识为V32)完全不同的技术路径。在总计114个文件中,MODEL1被提及28至31次,且被置于与V3.2平行的独立分支中,这明确表明它并非现有模型的简单迭代,而是一个全新的架构序列。
架构层面的标准化回归是MODEL1最显著的特征之一。
DeepSeek V3系列曾采用独特的576维非对称MLA设计(128维RoPE + 448维Latent),而MODEL1则将head_dim参数重新设定为512维。这一“回归标准”的动作并非技术倒退,而是DeepSeek可能已经找到了无需依赖非标维度也能实现高压缩率的新方法。
代码中提及的Engram机制或许就是关键所在,这种机制被认为是DeepSeek在分布式存储或KV压缩上的新突破。通过更完美的GPU Tensor Core计算特性对齐,MODEL1在换取更高计算通用性的同时,可能实现了更优的性能表现。
对下一代硬件的深度适配是MODEL1的另一大亮点。代码库中出现了大量针对英伟达最新Blackwell架构(SM100)的专门优化,包括SM100接口和B200显卡的专用内核实现。
特别值得注意的是,SM100的Head128实现仅支持MODEL1,而不支持V3.2,这被解读为DeepSeek为适配新一代硬件专门优化了新架构。测试数据显示,在尚未完全优化的状态下,MODEL1的稀疏算子在B200上已能达到350 TFlops的算力利用率,显示出其技术前瞻性。
计算效率的显著提升通过引入“Token-level Sparse MLA”机制得以实现。代码中出现了test_flash_mla_sparse_decoding.py测试脚本和FP8 KV Cache混合精度支持。这意味着DeepSeek正在将MLA机制从“全量计算”进化为“Token级稀疏计算”,允许模型在处理超长上下文时动态忽略不重要的Token,从而在显存占用和推理速度上实现数量级优化。
此外,MODEL1每个token的KVCache大小为584字节,相比V3.2的592字节有所减少,在32K长度序列中可节省约256KB内存,这对于边缘设备部署具有重要意义。
03
战略迷雾
V4、R2,还是第三条路线?
MODEL1引发的最大悬念是其产品定位。目前线索指向三种可能:
猜想1:旗舰全能模型V4
此前传闻DeepSeek将于2月发布V4,且编程能力“超过现有顶级模型”1。MODEL1对长序列(16K+)的优化、对文档与代码场景的适配,符合V系列“全能专家”定位。
猜想2:新一代推理专家R2
其稀疏计算、FP8解码、低内存特性完美契合R系列“高效率解题专家”基因。开发者社区认为它可能是“针对大规模推理优化的R1继任者”,甚至实现“双RTX 4090运行1M上下文”。
猜想3:架构层通用底座,支持V与R双线迭代
最可能的情形是:MODEL1并非具体产品,而是新一代基础架构,可同时衍生V系列(重知识广度)和R系列(重推理深度)——类似“芯片级创新”,上层可灵活封装不同能力。
04
R系列的价值重估
在MODEL1引发广泛关注的同时,业界对R系列未来命运的担忧不无道理。
DeepSeek-R1在后训练阶段大规模使用强化学习技术,在仅有很少标注数据的情况下极大提升了模型的推理能力。与传统的监督微调不同,R1开创了一种纯粹的强化学习方法,通过基于规则的奖励系统引导模型进行逻辑推理。
这种“推理即训练”的自我进化机制,突破了自GPT大模型以来的人类输入瓶颈,在数学、代码、自然语言推理等任务上达到了与OpenAI o1正式版接近的性能。
2025年12月,DeepSeek同时发布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale两款模型,前者被形容为“话少活好”的助手,主打高性价比与日常使用;后者则像“偏科”的科研天才,专攻高难度数学问题求解和学术研究逻辑验证。
这种产品分化策略表明,DeepSeek早已认识到不同应用场景对模型能力的差异化需求。R系列作为专门优化的推理模型,与通用对话模型V系列形成了良好的互补关系。
同时,成本控制的突破性是R系列的另一重要价值。
据DeepSeek技术报告,DeepSeek-V3的训练成本仅为557.6万美元,远低于OpenAI的GPT-4(1-2亿美元)和谷歌的Gemini(2亿美元)。R1不仅继承了这种成本控制能力,还通过模型蒸馏技术将推理能力压缩到小至15亿参数的小模型中。
令人惊讶的是,R1的15亿参数蒸馏模型在数学基准测试中能够优于更大的专有模型,在AIME上获得28.9%的分数,在MATH上获得83.9%的分数。这种“四两拨千斤”的技术路线,正是DeepSeek能够在算力受限环境下实现突破的关键。
05
从单一产品到生态矩阵的构建
自2025年2月起,华为云、阿里云、百度智能云、字节火山引擎、腾讯云等国内主要云厂商纷纷宣布上线DeepSeek模型。紧随其后的是各大国产芯片厂商,包括沐曦、天数智芯、摩尔线程、壁仞科技等十数家企业宣布完成了对DeepSeek模型的适配和上线。
由于DeepSeek打破了对高算力的约束限制,国产芯片的利用率得到极大提升。在应用层,金融、医疗、制造、通讯等各行各业都在积极接入DeepSeek模型,希望借助其能力升级自身服务。
从代码结构看,MODEL1并非V3.2的简单缩小版,而是不同的架构选择。V3.2追求最大性能和精度,MODEL1则可能追求效率和可部署性。社区对MODEL1的身份有多种猜测:一种观点认为它可能是一个追求极致效率的轻量级模型,更适合边缘设备部署;另一种分析则指向它可能是一个“长序列专家”,专门为处理超长文档或代码项目而生。
更深入的代码解读发现,MODEL1支持动态稀疏推理和额外的缓存区,这些设计可能旨在提升复杂任务(如智能体应用)的调度能力。
综合以上分析,我们可以得出一个明确的结论:R系列不会被放弃,而是会在DeepSeek的技术演进中扮演新的角色。
热门跟贴