在 DeepSeek-R1 发布一周年之际,官方 GitHub 代码库意外曝光了代号为「MODEL1」的全新模型线索。
在代码逻辑结构中,「MODEL1」是作为与「V32」(即 DeepSeek-V3.2)并列的独立分支出现的,这一细节意味着「MODEL1」并不共享 V3 系列的参数配置或基础架构,而是一个全新的、独立的技术路径。
结合之前的爆料和泄露的代码片段,我们梳理了「MODEL1」可能存在的技术特征:
·代码显示其采用了与现行模型完全不同的 KV Cache 布局策略,并在稀疏性(Sparsity)处理上引入了新机制。
·在 FP8 解码路径上有多处针对性的内存优化调整,预示着新模型在推理效率和显存占用上可能有更好的表现。
·此前爆料称,V4 的代码表现已超越 Claude 和 GPT 系列,并且具备处理复杂项目架构和大规模代码库的工程化能力。
·业界普遍推测,DeepSeek 近期发表的两篇重磅论文——关于优化残差链接的 「mHC」 以及 AI 记忆模块 「Engram」,极有可能被整合进「MODEL1」的架构中,从而解决长上下文记忆和计算效率的核心痛点。
此前有传闻称,DeepSeek 计划在 2 月中旬(春节前后) 发布下一代旗舰模型 V4。此次 GitHub 代码的提前部署,在时间线上与该传闻高度吻合。如果属实,这将是继 R1 之后,DeepSeek 推出的第二个重要模型。
值得一提的是,全球最大的 AI 开源社区 Hugging Face 最近也专门发文复盘了 R1 发布这一年的影响,核心观点就是「中国 AI 真的站起来了」。
他们认为 R1 的出现是个分水岭,证明了哪怕算力受限,靠开源也能实现技术上的弯道超车,让中国 AI 产业从封闭走向了开源爆发。在他们看来,R1 的真正价值在于降低了门槛:
·技术上: 公开推理细节,让高级能力可复用。
·应用上: 宽松协议(MIT)让模型迅速融入商业落地。
·心理上: 建立了中国 AI 从「追随」到「引领」的自信。
2025 年,中国开源模型的下载量在全球都占据了主导地位,不仅国内的大厂和创业公司都在全面拥抱开源,甚至国外现在很多所谓的新模型,实际上都建立在中国开源模型的基础之上。
附上博客地址:https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment
热门跟贴