2月11日,DeepSeek在其App与网页端悄然开启新一轮灰度测试,将模型上下文窗口从V3.1版本的128K token,直接提升至1M(百万)token。DeepSeek称可以一次性处理《三体》三部曲,并理解和分析其内容。

打开网易新闻 查看精彩图片

另外,升级了模型知识库截至日期和增强的文件处理能力。模型知识库更新至2025年5月,即便在离线状态下,也能准确回应2025年上半年的各类新闻事件。支持上传图像、PDF、Word、Excel、PPT、TXT,能从文件中提取文字信息并深度分析。

这一系列密集升级,被业内看作是其新一代旗舰模型V4即将亮相的重要信号。

此次测试版本仍为纯文本形态,暂不支持视觉输入及多模态识别功能,但成功补齐了长文本处理的核心短板,直接对标Google Gemini的百万级上下文能力。

官方没有正式公布更新,但有部分用户在试用时吐槽,“丢掉了DeepSeek最有灵魂的东西”“现在这版本小说文笔巨差,以前的文笔我认为是业界巅峰,比什么gptgrok都强,就是2月11号后一切都变了。”“不知道的还以为在写诗呢,一句话一段你知道我看得多崩溃吗?”

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

也有用户认为这只是新版本测试,后续会根据反馈优化的。

打开网易新闻 查看精彩图片

DeepSeek的更新开年以来一直在铺垫。

早在2025年下半年,受生态布局薄弱、产品能力偏科等因素影响,DeepSeek的用户规模和活跃度均出现明显下滑,外界对其发展前景一度提出质疑。对此,DeepSeek团队并未急于回应,而是选择低调深耕技术,陆续发布V3.2系列模型、数学专用模型及OCR工具,为新一轮技术突破默默蓄力。

1月,DeepSeek以罕见的频率连续发布两篇关键技术论文,为这次灰度测试的顺利推进筑牢了技术根基。其中,元旦当天发布的mHC流形约束超连接架构,解决了大规模模型训练过程中的稳定性难题。

1月中旬,开源的Engram条件记忆模块,则采用哈希查找替代高成本的神经网络计算,实现“查算分离”,可将超大参数表迁移至CPU内存,推理延迟控制在3%以内,天然适配百万级长上下文场景,大幅降低了长序列推理的算力开销。

不到一个月前,DeepSeek自研解码核心库FlashMLA更新时,社区开发者意外发现了代号为“Model 1”的全新模型标识。该标识独立于现有V3.2架构,在KV缓存布局、稀疏性处理以及FP8数据格式解码等方面,都与V3.2版本存在明显差异,这意味着DeepSeek正在进行一次底层架构的全面重构,而非简单的版本迭代。

据悉,DeepSeek 下一代旗舰模型预计将是一款万亿参数级别的基础模型,正因规模大幅跃升,训练速度明显放缓,导致发布进程有所延后。但野村证券2月10日发布的报告里提到,预测DeepSeek V4会在2月中旬发布。

DeepSeek将全面整合mHC与Engram两项核心技术,摒弃盲目堆砌参数的行业惯性,重点提升模型的推理、编程以及长文本处理效率。

目前,DeepSeek并未对此次灰度测试作出回应。

来源:星河商业观察