1月12日晚,DeepSeek创始人梁文锋署名发布新论文《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直译为基于可扩展查找的条件记忆:大语言模型稀疏性的新维度)并开源记忆模块Engram,引起了业内高度关注。
该研究提出“条件记忆”新范式,通过让模型将固定知识存储与动态推理计算分离,大幅提升了处理效率。论文数据显示,这一架构能在同等算力下,显著提升模型在数学、代码及知识任务上的性能。
本月,智谱AI与MiniMax刚刚在港交所完成上市,月之暗面(Kimi)也完成了新一轮巨额融资,标志着大模型创业公司正迎来一轮资本化高潮。在此背景下,梁文锋的论文引申出了一个核心问题:当一部分公司全力奔赴资本市场时,DeepSeek为何选择以一篇技术论文作为回应?
当前,行业头部公司已走上几条清晰不同的路。刚上市的智谱AI和MiniMax都选择用技术赚钱,但商业模式不同。智谱主攻企业服务(To B),客户达数千家;MiniMax则面向全球用户(To C),用户数亿,大部分收入来自海外。
而月之暗面代表了另一条路,即凭借长上下文等技术亮点吸引融资,实现快速增长。而该公司仍面临的挑战是如何将技术优势持续转化为大规模的商业成功。
在此背景下,DeepSeek的论文开源,明确指向了第三条道路:“开源技术生态”。这并非直接的市场竞争,而是旨在通过定义下一代模型的高效架构(如Engram模块),在底层构建广泛的技术影响力与生态。
与此同时,科技巨头正以全面布局的模式强势加入战局,成为另一支关键力量。例如,字节跳动的豆包与阿里的通义千问,正借助自身的业务和基础设施优势,把AI能力深度融入从底层算力到上层应用的各个环节,展开体系化的全面竞争。
值得关注的是,DeepSeek则坚持开源,其影响已与全球主流的闭源模式形成鲜明对比。当OpenAI、Anthropic等海外巨头将尖端技术闭源以构筑壁垒时,DeepSeek却将Engram等关键成果开源,这实质是选择了一条通过吸引全球开发者、建立技术标准来构建生态影响力的差异化路径。此举不仅降低了全球AI创新门槛,长远看也有助于促进技术路线多元化,防止市场被少数闭源体系垄断。
如今,大模型竞争已全面演进为技术路线、商业模式与生态构建的立体战局,正在塑造一个共生制衡的全新产业体系。而梁文锋的这篇论文,恰似立在分岔路口的一座技术路标,清晰地指向了其中一条通往未来的道路。
热门跟贴