春节假期还没到,DeepSeek 就先把礼物拆了一半。

2 月 11 日,多位用户发现 DeepSeek 的 App 端和网页端已经悄然开始灰度测试一项重大升级:上下文窗口长度从此前 V3.1 版本的 128K token 直接拉到了 1M(百万)token。DeepTech 验证后确认,无论 App 还是网页端,模型自述的上下文长度均为“1M”。

与此同时,知识截止日期也从此前的版本更新到了 2025 年 5 月,在不联网的情况下已经能够准确回答 2025 年 4 月的新闻事件。不过,这个新版本目前仍然是一个纯文本模型,不支持视觉输入,也不具备多模态识别能力。

(来源:DeepTech)
打开网易新闻 查看精彩图片
(来源:DeepTech)

以往 DeepSeek V3 系列仅 128K 的上下文容量是一个相当大的短板,本次提升至 1M 级别可谓进步巨大,此前,Google 的 Gemini 系列最先将上下文推至百万级别。DeepSeek 此次直接对标 Gemini 的上下文长度,算是在这个维度上跻身第一梯队。

值得注意的是,就在不到一个月前,DeepSeek 的 GitHub 仓库 FlashMLA(其自研的多头潜在注意力解码核心库)更新中,社区开发者发现了一个代号为“Model 1”的神秘模型标识,它在 114 个文件中出现了 28 次,作为独立于当前 V3.2 架构的并行分支存在。

(来源:Github)
打开网易新闻 查看精彩图片
(来源:Github)

代码层面的线索显示,Model1 在 KV 缓存(Key-Value Cache)布局、稀疏性处理和 FP8 数据格式解码等方面与 V3.2 存在明显差异,指向了一次架构层面的重大重构,而非简单的版本迭代。这一发现恰好出现在 DeepSeek-R1 发布一周年之际,更与此前媒体援引知情人士的报道,即 DeepSeek 计划于 2 月中旬春节前后发布下一代旗舰模型 V4 这一消息相呼应。

那么,今天灰度测试的这个版本,是否就是传说中 V4 的前奏?从技术逻辑上看,有一些拼图已经摆上了桌面。过去一个多月里,DeepSeek 以罕见的密度连续发布了两篇重要论文,创始人梁文锋均署名参与。元旦当天发表的 mHC(Manifold-Constrained Hyper-Connections,流形约束超连接)解决了大规模模型训练中的稳定性问题。

紧接着 1 月中旬开源的 Engram 模块则提出了“条件记忆”(Conditional Memory)这一全新稀疏性维度,用 O(1) 复杂度的哈希查找取代昂贵的神经网络计算来完成静态知识检索。Engram 论文中特别展示了将高达 100B 参数的嵌入表卸载到 CPU 内存、GPU 专注推理计算的能力,额外推理延迟低于 3%。

这种“查算分离”的架构天然适配超长上下文场景,当上下文窗口扩展到百万级别时,传统的全量注意力计算成本会急剧膨胀,而 Engram 结合去年 V3.2 中引入的 DSA(DeepSeek Sparse Attention)机制,理论上可以显著降低长序列推理的计算开销。

不过,灰度测试毕竟只是灰度测试,离正式发布还有距离。目前尚不清楚这个版本的具体参数规模(据测试,其反应速度似乎要明显快于 671B 的 V3 系列,有人猜测或为 200B 模型)、是否已整合 Engram 和 mHC 等新架构组件,以及它在标准基准测试上的表现如何,这些信息 DeepSeek 均未披露。

去年 R1 在农历新年前夕横空出世,引发全球震动,英伟达市值单日蒸发 5930 亿美元;而今年 DeepSeek 的故事还在慢慢展开。百万 token 上下文的灰度测试可能只是小年夜的一道开胃菜。真正的年夜饭,或许还在后头。

参考资料:

1.https://www.reddit.com/r/LocalLLaMA/comments/1qi06kp/one_of_the_deepseek_repositories_got_updated_with/

运营/排版:何晨龙