打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

作者:青青 2025年1月20日晚间时间,当DeepSeek-R1满周岁之际,代码库里悄悄浮出了一个陌生的名字:"MODEL1"。这个此前从未公开亮相的模型标识符,在DeepSeek更新的FlashMLA代码中被发现了多达28处引用,跨越114个文件。 这套藏在代码层面的架构迭代,可能正是DeepSeek在春节前后计划发布的下一代旗舰模型,也就是传说中的DeepSeek-V4。与其说是泄露,不如说是这家公司对技术方向的又一次大胆重写。

01 .

代码细节里的架构秘密,KV缓存与稀疏推理的双重优化

从GitHub提交记录看,MODEL1与现有的V3.2在底层架构上存在明显差异。海外开发者的分析指出,最核心的变化体现在三个方向:KV缓存布局、稀疏性处理和FP8解码支持。

在KV缓存优化上,MODEL1的内存分配策略从V3.2的576字节调整至接近584字节。这看似微小的改动背后,隐藏着对长文本处理的重新思考。以往的模型在处理超长上下文时,会因为注意力机制的计算量呈平方增长而陷入困境。MODEL1引入了Token-level Sparse MLA,即在令牌级别实现稀疏多头潜注意力机制,这意味着模型可以动态决定哪些历史token值得关注,哪些可以剪枝。

一位海外网友的深入代码分析显示,MODEL1支持动态Top-K稀疏推理逻辑。说得通俗一点,模型不再盲目处理全量历史信息,而是学会了"选择性遗忘"。在某些场景下,这种策略能将显存占用削减40%以上,同时推理速度翻番。对于正在处理百万tokens级别上下文的企业级应用来说,这就是直接的成本收益。

FP8解码的专门支持则体现了DeepSeek对推理效率极致追求的态度。在NVIDIA的Hopper架构GPU上,FP8相对于FP16有约两倍的吞吐量优势。DeepSeek在代码中显式适配了SM90和SM100架构的FP8运算,这意味着MODEL1可能会成为首批在生产环境中充分利用新一代GPU浮点运算能力的大模型。

02 .

Engram与VVPA,两大技术突破指向编程能力的跃升

在不到两周的时间里,DeepSeek相继发布了两篇重磅论文,分别涉及"优化残差连接"(mHC架构)和"AI记忆模块"(Engram)。业界的普遍共识是,这些论文中的创新思想已经被集成进了MODEL1的工程实现中。

Engram的价值在于彻底改变了Transformer架构处理知识的方式。传统的注意力机制本质上是在"计算"中模拟"记忆",每当模型遇到一个实体或固定短语时,都需要通过复杂的矩阵运算才能检索相关信息。这种设计在处理大量重复模式时显得低效。Engram的做法是将记忆和计算彻底分离。它基于哈希N-gram嵌入建立了一个条件记忆层,实现了近似O(1)的确定性知识查找。在数学和代码任务上,这个模块能带来20%到30%的性能提升。

与此同时,MODEL1中引入的VVPA(值向量位置感知)机制则针对另一个长期困扰模型的问题:在长文本下位置信息的衰减。传统的RoPE位置编码在处理极长序列时会出现位置信息混淆的现象,导致模型对某些token的位置判断错误。VVPA通过为值向量增加位置感知能力,确保即使在数千tokens的上下文中,模型仍能精确定位每个token的相对位置。

这些改进直接服务于一个明确的产品目标:编程能力的突破。根据The Information的爆料,DeepSeek内部的基准测试已经显示,MODEL1在代码生成任务上的表现超越了Claude和GPT系列。这不仅意味着更强的代码补全能力,更关键的是解决了困扰AI模型的"灾难性遗忘"问题。以往的模型在处理大型工程项目时,会因为上下文长度的限制或注意力衰减而频繁"遗忘"之前定义的函数或变量。新模型的mHC架构通过严格控制信号增益(限制在1.6倍),在扩大参数量的同时保持了模型的稳定性,这为构建真正的编程Agent打下了基础。

03.

春节档期的战术选择,开源模式下的产业重构

2025年的AI产业已经形成了一个有趣的时间规律。去年春节前后,DeepSeek发布了R1模型,借助假期间的全球关注度实现了指数级传播。今年的计划看起来是复刻这个"春节突袭"的策略。将MODEL1的发布时间设定在农历新年前夕,既能赶上国内技术社区的活跃期,又能利用春节假期期间国外开发者的闲暇时间。

从更大的产业格局看,MODEL1的出现正值AI竞争格局发生深刻变化的时刻。过去一年,DeepSeek已经彻底改写了人们对"需要多少算力才能训练顶级模型"的认知。R1用29.4万美元的后训练成本达成了与OpenAI o1相当的推理能力,这个数字公开发表在《Nature》封面上,成为了对整个硅谷"大力出奇迹"哲学的一次直接挑战。

打开网易新闻 查看精彩图片

开源策略是DeepSeek的另一张王牌。当微软、AWS、英伟达等科技巨头纷纷将R1集成到自身的云平台时,我们看到的已经不是单纯的技术竞争,而是生态的重组。开发者可以在Azure、Amazon Bedrock上直接部署DeepSeek模型,这意味着OpenAI的垄断优势正在被逐步瓦解。

MODEL1的发布方式预计也会保持这个开源传统。完全开源的设计让全球开发者都能自由地使用、修改和商业化模型,这不仅降低了部署成本,更重要的是激发了基层开发者的创新动力。

从代码层面的MODEL1细节、到论文里的Engram理论、再到春节前的战术时间点,DeepSeek正在编织一个相当完整的技术和商业策略。这场"不卷功能、不融资、不着急"的独特企业哲学,正在用一种更高效、更开放的方式改写AI产业的竞争规则。今年2月中旬,我们或许就能看到这套架构设计在实际应用中的完整样貌。