打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
Engram机制的核心思路是给大模型加一个“外接记忆库”。传统MoE模型处理信息时,会对常见名字、公式等静态知识反复计算,既耗时又耗算力。
打开网易新闻 查看精彩图片
浅层部署的记忆模块能接管局部依赖与静态知识存储,为注意力机制腾出容量专注全局推理。
即便将1000亿参数的记忆表卸载,H800推理吞吐量降幅也不足3%。DeepSeek还发现,增加记忆槽位数量能持续降低验证损失,这为大模型提供了无需增加计算量就能提升性能的可预测扩展路径。
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
刚加入DeepSeek时,程信参与的是R1模型的参数优化工作。由于在高效参数化方法上有独到见解,他被纳入核心研发团队。在Engram机制的研发初期,团队曾因记忆模块与主干网络的适配问题陷入瓶颈。
这种校企协同的模式让更多青年科研人员脱颖而出。目前DeepSeek的核心研发团队中,有三成成员来自高校实习转正的年轻人才。他们在学术研究与工程落地的结合中快速成长,成为国产大模型创新的重要力量。
打开网易新闻 查看精彩图片
Engram机制不仅有学术价值,更具备极强的工程落地潜力。其记忆检索完全依赖输入token,实现了参数存储与计算资源的解耦,训练时可将超大嵌入表分片至多张GPU,推理时能提前预取数据避免GPU停顿。
基于自然语言的Zipf分布特性,Engram还能采用多级缓存策略,高频嵌入存于GPU或主机内存,低频嵌入置于SSD,轻松扩展至超大规模记忆,
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
热门跟贴