从上下文到长期记忆：大模型记忆工程的架构设计与实践|上下文|参数化|基模|大模型|实践|新论文|架构设计|算法|记忆工程

作者｜李志宇博士

编辑｜Kitty

策划｜QCon 全球软件开发大会

随着大模型在企业和行业场景中持续落地，“记忆”正在成为继参数调优和上下文工程之后的下一个工程化核心。短时遗忘、知识碎片化、跨任务信息无法留存等问题，正在限制大模型的个性化、推理链延展与持续演化能力。

本文整理自记忆张量 CTO 李志宇博士在 2025 年 QCon 全球软件开发大会（上海站）的演讲分享。志宇博士结合他多年的研发与落地实践，系统剖析大模型记忆工程的核心技术：记忆分层管理、多粒度调度、可信更新与安全治理，并展示这些技术在金融、工业、知识管理等业务中的应用效果。通过对架构设计、实现细节和案例经验的讲解，帮助开发者与架构师全面理解如何构建具备长期留存与动态调度能力的“有记忆的 AI”，以及它在未来产业智能化演进中的角色与挑战。

预告：将于 4 月 16 - 18 召开的 QCon 北京站设计了「记忆觉醒：智能体记忆系统的范式重塑与产业落地」专题，旨在重新定义企业级记忆系统的未来——聚焦非显式偏好捕捉、记忆自主演化与生命周期管理等前沿方向，探索其在高端客服、个性化助理、企业决策等场景的深层价值。如果你也有相关方向案例想要分享，欢迎提交至

https://jinshuju.com/f/Cu32l5

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）。

大模型性能缩放曲线的演进历史

我们公司名为“记忆张量”，单从名字便可看出，我们聚焦的是“记忆增强”——或者说“记忆优化”这一方向。去年十一月刚刚成立，不久前刚完成近亿元人民币的天使轮融资。

之所以选择“记忆”作为主攻点，根本原因在于我们判断：在大模型的演进史中，记忆将成为与 MCP 工具并列的下一个关键增强维度。2023 年以前，业界普遍通过扩大数据规模、参数量和训练量来换取性能提升，由此催生了千问、ChatGPT 等代表性范式。进入 2024–2025 年，人们逐渐发现，单纯堆参数与规模带来的收益开始递减，于是转向“后训练”与“推理增强”，DeepSeek-R1 便是这一阶段的典型产物。当后训练也逼近瓶颈时，Sam Altman 等人开始追问：下一步的突破口究竟在哪里？在 GPT-4 的更新日志里，OpenAI 把“全局记忆”列为令团队“兴奋到失眠”的新功能；而在 GPT-5、GPT-6 的路线图中，“记忆”与“个性化”被反复提及，被视为大模型面向应用场景的核心变量。

从实践层面看记忆增强的必要性

若把大模型业务服务做一次抽象，可自下而上划分为：底层的数据库存储与基础 AI 引擎；中间的 MCP 增强、知识库增强；最上层的业务逻辑。再将视角切换到单个用户与大模型的交互流程，就会发现其中同时存在动态与静态两类信息。所谓动态信息，指随每次查询而变化的个性化内容：用户临时贴入的参考材料、在 prompt 里约定的偏好等。查询一旦发出，模型先进行意图理解与任务规划，再进入信息增强链路——MCP 调用各类动态工具，并返回执行结果、校验信息、汇总结果；与此同时，知识库从预先处理好的企业静态知识中抽取内容，为模型提供补充。最终，响应结果既包含推理过程（think 部分），也包含知识性内容，以及用户对本次回答的点赞或点踩。

若沿着时间轴把记忆类型进一步展开，其复杂度远超直觉。假设我们在第 6 轮对话里需要引用一个月前第 2 轮的内容，又在第 5 轮里引用第 1 轮的细节，就必须保证用户在不同场景下都能准确召回、并同步更新已发生变化的记忆。再把视角拉远：大模型可能在多轮会话、多用户、多 Agent、多 App 之间穿梭，动态信息的量级与管理难度呈指数级上升。因此，我们希望在开发层面屏蔽这些复杂性，让应用开发者无需深陷动态信息的泥沼，从而显著降低落地成本。

大模型记忆增强层的实现路径

顺着这一思路，我们把大语言模型、Agent、业务流程与用户之间抽象出一个“记忆操作层”。要实现记忆增强，业界目前大致有两条路径。

第一条是模型增强范式：从模型架构与训练范式本身入手，让训练后的模型对记忆具备更强的理解与编排能力。我们团队早期便尝试以记忆分层的方式建模，以提升记忆管理与唤起的效率；近期，字节跳动等机构也尝试利用强化学习来优化记忆使用范式，重点解决短期记忆与长期记忆的协同问题。这一路线可称为“基模驱动”的记忆优化。

第二条则是面向应用层的工程实践：在不动基座模型的前提下，通过通用大模型、提示工程（prompt engineering）与 Agent 工作流来模拟人类对记忆的管理过程。早期项目如 MemGPT、Mem0、Zep 等开源框架均循此思路；近期 Memories.AI 更进一步，从多模态记忆角度拓展了记忆管理框架。除这些偏开源或商业化的团队外，也有不少学术团队围绕记忆工程中的单点创新提出独立方案。

若将两条路线并置比较，二者几乎处于对立的两极。以基模为核心的方案，研发周期长、投入高；然而一旦在模型层面把记忆问题真正吃透，其性能天花板也最高，后续扩展几乎没有硬约束。反之，纯应用层的做法可在极短时间内搭出第一版记忆系统，且横向扩展灵活；但依赖通用基座模型与提示工程，往往很快触到性能瓶颈——从 85% 再往上走到 90%、95%，每一步都异常艰难。

在我们看来，真正可行的路线是把“基模驱动”与“应用驱动”融合为一。具体做法是：在系统关键节点训练一系列面向记忆操作与记忆理解的小型专用模型，同时保留一套能力更强的主模型来执行整体记忆编排。这样，开发者无需深陷复杂的编排与理解细节，成本被大幅压缩。一句话概括：模型决定上限，应用夯实下限。我们坚持由模型驱动去攻克原创理论与核心算法，确保开源框架随版本迭代持续抬升性能天花板；同时，团队里既有来自高校的理论研究者，也有曾任职阿里巴巴、美团的应用算法工程师，因此在设计整套系统时，我们同样关注业务适配性与通用性，力求让前沿成果能够平滑落地到真实场景。

记忆增强层落地需要做什么？

若要把记忆管理系统真正搭建并持续优化，从系统到算法层面，需要攻克的环节远比表面看起来繁复。首先，记忆一旦进入系统，就要完成抽取、组织与检索三步闭环：抽取必须精准，组织必须高效，检索则要在极低冗余与极高精准之间取得平衡。紧接着，当信息动态更新时，必须确保用户曾提及的实体与细节被准确刷新，版本历史被完整保留，而检索时又能即时返回最新状态。最后，记忆还要在多方之间顺畅共享——不仅跨会话、跨 Agent，也跨企业组织内的不同用户。

这些环节里，有些难题仅靠通用模型几乎无解。以记忆抽取为例，通用模型常出现幻觉，既可能捏造事实，也可能把 A 用户的记忆错放到 B 用户名下；而在记忆更新阶段，幻觉同样高发，稍不留神就会让旧版本与新版本混为一谈。因此，我们必须引入更精细的机制，才能在这些关键节点上守住准确性与一致性。

MemOS 的核心设计思路

既然我们给自己定的目标是打造一套“记忆操作系统”，至少也得是 Tiny-OS 级别，那就必须像传统操作系统那样，把整体框架拆成清晰的分层。从硬件到内核再到应用，每一层都对应记忆场景里的关键问题：

最底层相当于“存储硬件”，要解决的是记忆如何被高效共享与持久化；
中间的内核层，必须保证全局记忆的读写效率足够高；
最上面的应用层，则要把复杂的记忆操作流程对开发者完全屏蔽，让他们用起来足够顺滑。

顺着这个思路，我们设计了五层记忆管理框架：存储、治理、调度、应用、解码。其中，治理层与调度层是市面上现有框架极少单独拆出的两层。很多人会把记忆直接塞进向量库或图数据库，我们却坚持为记忆量身定制存储层——因为我们相信，当大模型能力继续跃升、终端入口趋于统一后，传统带 GUI 的 App 形态会逐步消失。

不妨以“时间管理”为例：今天我们要先下载一个时间管理 App，再手动录入日程；稍智能的软件能帮我们排期并提醒。但在不远的将来，人们可能不再下载 App，而是直接获取一个“时间管理记忆体”。这个记忆体已经把时间管理所需的推理逻辑与细节知识打包完毕，安装到本地通用模型后，两者联合推理即可从对话里自动抽取时间要素、生成排程，效率远高于通用模型本身。

因此，我们把“记忆体”定义为可独立打包、下载、安装的最小单元，既可以是个人经验资产，也可以是企业知识沉淀的载体。明年年中，我们将上线“记忆交易市场”，思路类似今天的 App Store：开发者用我们提供的 SDK 把企业知识封装成记忆体并上架；终端用户按需下载安装，即可在“最后一公里”显著提升业务效能。

MemOS 的系统框架

既然记忆已被视作个人最核心的经验资产，治理就必须在一开始就被提到最高优先级。在即将发布的 1.0 版本中，我们把记忆全生命周期管理、幻觉评估框架、水印、权限与隐私控制全部内建，力求让每一份记忆资产从诞生起就保持稳健与可信。

再往上是调度层。之所以单独设立“记忆调度”，是因为我们坚持记忆必须分层管理——这直接源于 2023 年 11 月启动的记忆分层基座模型研究。从建模角度看，明文记忆、激活记忆与参数化记忆在读写效率上差异显著：明文记忆只需改写文本即可瞬间入库；参数化记忆则依赖继续训练或后训练，写入成本极高，但读取极快；激活记忆介于两者之间，读写相对均衡。基于这一分层，我们按使用场景与访问频率动态建模，确保全局读写效率、时效性与首 token 时延同时最优。

为支撑这套调度框架，我们配套实现了消息队列、动态埋点与主动预测算法，使系统始终面向 memory-ready 状态：用户随时提问，背后的 Memory Cube 都已处于最佳形态，时延被压到最低。

最上层是 MemOS 开源框架与服务平台。对外我们提供两类标准服务：

记忆即服务（Memory-as-a-Service）：接收 Query 后，返回回答该 Query 最相关的记忆片段；
记忆 + 推理即服务（Memory+Inference-as-a-Service）：在底层完成推理，用户只需指定模型，系统即返回融合记忆后的完整答案。

以上便是 MemOS 1.0 的整体设计现状。

Memos 的核心机制一：记忆分层建模

围绕当前框架，我想分享三点在实践中被反复验证、值得特别注意的经验：记忆分层、记忆调度，以及记忆脑图的信息组织方式。它们共同构成了我们整套系统的核心设计思想。

首先是记忆分层。自 2023 年 11 月我们启动记忆分层大模型研究以来，业界虽频繁提及“分层”，但多数仍停留在“长期 / 短期”或“明文工作记忆”这类粗粒度划分。我们认为，从基础模型理论出发，记忆应被系统性地划分为参数化记忆、激活记忆与明文记忆，而明文记忆内部还可进一步细分。之所以必须如此，根源在于人脑的记忆形成机制。

人脑首先接受感官刺激——听觉、视觉、触觉等。只有“重复且有效”的刺激才会留下痕迹。所谓“有效”，是指该刺激与当前任务或兴趣高度相关。例如，普通人对路边落叶视而不见，环卫工人却会敏锐捕捉。若所有信息无差别入库，大脑将因容量有限而崩溃。

被筛选出的信息先进入短期记忆。短期记忆自带遗忘机制；若再经重复刺激，便沉淀为长期记忆。长期记忆又分两类：外显记忆——可被语言提取，如“昨晚看过的电影情节”；内隐记忆——通过行为表现，如程序员盲打键盘的指法。长期记忆若长期不被调用，也会被主动遗忘，以维持系统效率。

人脑这套“刺激—筛选—巩固—遗忘—再学习”的闭环，为我们设计记忆系统提供了完整范式：刺激阶段对应“选择性写入”，降低冗余；短期记忆对应“激活记忆”，追求读写速度；长期外显记忆对应“明文记忆”，便于检索与共享；长期内隐记忆对应“参数化记忆”，通过继续训练微调，读取快、写入慢；遗忘与再学习机制则对应“动态调度与回收”，确保全局性能最优。

围绕当前记忆系统设计的实践，我想分享三点体会，它们共同构成了我们框架设计的核心考量：记忆分层的必要性、记忆调度的技术原理，以及“记忆脑图”这一组织方式的独特价值。

记忆分层绝非简单地把信息划分为“长期”与“短期”，或套用认知心理学中 working memory 的概念。从大语言模型的理论视角出发，记忆应当被系统地拆分为三层：参数化记忆（模型权重）、激活记忆（推理过程中的中间状态）与明文记忆（可显式读取的外部存储）。其中明文记忆又可进一步细分为外显与内隐两类，这一划分直接对应人脑的记忆形成机制。

人脑的记忆始于感官刺激。视觉、听觉、触觉等信号若要在神经层面留下痕迹，必须满足“重复且有效”的条件：重复保证突触可塑性的持续强化，有效则意味着刺激需与个体目标或情感显著相关。以日常场景为例，路人往往忽略脚边落叶，而环卫工人因职责所在，会反复接收并处理同一类视觉信号，落叶遂成为其短期记忆的一部分。若此类信息未经筛选地全部入库，有限的脑容量将迅速耗尽；因此人脑在编码阶段即执行严格的过滤。

短期记忆并非终点。它自带遗忘曲线，只有通过再次复述或情境复现，才能被巩固为长期记忆。长期记忆又可区分为外显与内隐：前者可被语言化，如“昨日观影内容”；后者则表现为程序性技能，如程序员对键盘键位的肌肉记忆。值得注意的是，长期记忆亦遵循“用进废退”原则——久未调用的记忆会被主动遗忘，以维持检索效率。

借鉴人脑的这一套机制，我们便会发现其中有许多值得汲取的要点：长期记忆中的遗忘机制、学习与进化机制，短期记忆在效率上的优势，以及刺激阶段选择性过滤所带来的功耗优势，皆可为我们构建记忆分层与记忆管理系统提供直接启示。

基于上述启发，我们在 2024 年 7 月发布了首个分层架构的大模型。其核心理念是把 Transformer 中的参数化记忆拆分为抽象知识与具体知识，并进一步把其中可分离的部分抽离出来，使模型主干尽可能轻量化。主干只需保留最关键的推理能力，其余具体知识则交由外部存储管理。据此，我们将记忆划分为隐性记忆、显性记忆与外部记忆三类，通过分层降低推理与记忆负载。

若将三类记忆映射到人类行为，隐性记忆如同骑自行车——一旦学会便不再需要刻意思考；显性记忆则像昨日读过的书或课堂笔记，经大脑加工后随时调用；外部记忆则类似开卷考试，学生可现场翻阅教材，按需检索。

写入方式亦各有特征：隐性记忆通过训练固化于模型参数；显性记忆以 KV Cache 形式缓存；外部记忆即明文知识库，按常规检索逻辑维护。读取时，隐性记忆支持即时推理；显性记忆依赖 Self-Attention 交叉计算；外部记忆则需重新编码。综合来看，隐性记忆更新慢、读取快；外部记忆容量大、存储效率高，但联合解码耗时；显性记忆更新灵活，既可随时丢弃，也可常驻显存，读写速度居中。

记忆调度的本质，是把上述三种记忆各自的优势真正用起来。在 MemOS 的设计里，我首先把参数化记忆拆成两块：一块是“内置参数记忆”，即模型出厂时便固化的权重；另一块是“外置参数记忆”，它随着用户或 Agent 与大模型的持续交互而动态生长——系统会挑选那些反复出现、对任务至关重要的偏好、事实与推理模式，以低秩更新或增量训练的方式写进这一区域。场景一变，外置参数记忆也随之调整，始终保持与当前任务高度相关。

显性记忆则体现为推理过程中产生的高速 KV Cache。我会把它暂存在显存或高速缓存区，并在下一次同类任务到来前，预判是否需要提前加载到 GPU，避免冷启动带来的延迟。至于外部记忆，我进一步把它细分为短期明文记忆与长期明文记忆：前者存放最近几轮对话或临时参考文档，后者则像一座可随时间沉淀的知识库，按需召回。

整个记忆管理机制就落在对这五类记忆——内置参数、外置参数、显性 KV Cache、短期明文、长期明文——的灵活调度上。若把记忆系统的全生命周期比作八颗星的工作量，传统 RAG 往往把六颗星都花在“使用”环节：幻觉校验、主体一致性检查、权限验证……而构建与调度环节却相对单薄，无非是切片、 Embedding，再复杂一点便是 GraphRAG。可一旦把 GraphRAG 真正部署到生产环境，就会发现它的成本与延迟都高得难以接受。

我们的思路恰恰相反：把尽可能多的工作量前置到构建与调度阶段。构建时，针对不同记忆类型做类脑式的组织与抽取，采用“图 + 向量”的多路混合存储，既保留语义关系，又兼顾检索效率；调度时，则引入主动预测模型，让所需记忆在任务到达前就已处于“就绪”状态。如此，开发者在真正使用这套系统时，只需关心业务逻辑，无需再为记忆管理付出额外成本。

MemOS 的核心机制二：记忆调度管理

我们整套机制的核心，是把“调度”做到极致。调度究竟意味着什么？一句话概括：在最恰当的时刻，把最匹配的记忆放到最恰当的位置。这三个“最恰当”听起来简单，实则每一步都隐藏着大量算法与工程细节。

当前主流 RAG 的增强范式，在我看来属于“被动式检索”。它的典型流程是：用户输入查询 → 系统重写查询 → 生成嵌入 → 向量库召回 → 粗排 → 精排 → 构造提示 → 交由大模型作答。整个链路呈“阻断式”。后续上下文构造与模型回答必须等待检索全部完成后才能继续。为了提升精度，我们常常把检索方案从 Pro 升级到 Ultra，每次升级又额外增加两秒延迟。若业务硬性要求两秒内返回结果，这套阻断式流程便几乎无法兼顾精度与速度。更棘手的是，随着对话窗口拉长，上下文 Token 不断累积，成本呈指数级上升；跨会话、跨天的推理结果也难以复用，导致碎片化与浪费。

若把 Agent 或用户在真实场景中的时间线拆开，可发现大量“空档”：用户敲键盘输入、模型推理、用户阅读答案、再次输入……这些碎片时间加起来往往远超两秒。与其让它们白白流逝，不如化整为零，把记忆管理、调度与预热工作嵌入每一个空隙。届时，当真正需要构造上下文时，所需数据已提前就位，只需极短时间即可完成拼接。无论对系统延迟还是用户体验，提升都立竿见影。

我们把最小记忆单元称为 Memory Cube。借助它，可在用户输入、模型推理、答案阅读乃至下一轮输入等任意阶段与记忆系统交互，持续把后续可能用到的内容提前准备到“就绪”状态。如此，当查询真正到来时，上下文已静静等候，只需一次轻量调用即可交付。

若把记忆调度抽象来看，它由三类核心容器构成：触发器、调度器与快速检索器。触发器允许开发者依据自身业务灵活配置触发点——当用户键入查询、点击设置列表，或任何其他关键动作发生时，皆可即时唤起记忆调度。调度器则接收触发器传来的信号与模板化配置，对隐性、显性与外部记忆分别执行差异化处置，确保在真正需要时，所需记忆已处于最佳状态。

快速检索器并非必需，可视场景取舍。由于记忆准备已转为全时、异步、并行流程，检索耗时可从原来的数秒压缩至百毫秒级，仅需在最后一刻快速补入最新片段即可。由此，我们将传统单轮、阻断式的 RAG 记忆准备，拆分为跨多轮、可并行异步执行的细粒度过程。

欲将记忆调度系统打磨成熟，至少需在以下层面着力：触发触点建模、负载均衡、明文与激活记忆的分级调度。触点建模尤其依赖对用户与系统行为的主动预测——通过一系列轻量级预测模型，实时捕捉行为变化，并据此将调度模板路由至恰当节点。

MemOS 的核心机制三：记忆脑图组织与检索

当记忆分层与调度都已就绪，我仍需回到起点，重新审视“记忆被抽取之后，究竟应以何种形态组织”。组织方式直接决定后续检索成本、准确率与效率。业界目前可见两条路径：一是直接分块，简单高效，却易割裂文本间的语义关联；二是 GraphRAG，试图以知识图谱保留关系，但构建高精度图谱对实体一致性要求极高，成本令人望而却步。我曾在阿里巴巴业务中台负责商品知识图谱，六十余人历时三四年持续打磨，仍深感其复杂与脆弱。即便引入大模型辅助，图谱的可靠性与可用性依旧难以令人满意。

反观人类自身，我们并不会在听完一场讲座或读完一本书后，立刻铺开一张大纸绘制知识图谱；更自然的做法是勾勒一张脑图——提取事件与逻辑的脉络，形成树状框架。脑图恰好介于“分块”与“图谱”之间：既利用大模型的推理与理解能力，又将构建成本控制在可接受范围。

然而，仅有脑图还不够。我更想强调的是“主动记忆”——与被动分块或静态图谱不同，它要求系统像领域专家一样，只抽取对当前场景真正有价值的信息。以金融行业为例，金融专家阅读同一份研报时，会自觉过滤通识内容，仅保留差异化、可复用的要点。为此，我们引入记忆的 CoT（Chain of Memory）过程：先分析对话或文档的主题与特征，再据此决定抽取策略，使转换效率最大化。

获得初版记忆脑图后，还需二次关联与校验：跨会话补全上下文、跨文档建立路由节点，最终形成由根节点（Root Node）与主题节点（Topic Node）构成的网络。在此网络中，我们为关键路径与节点预计算嵌入向量，实现“图 + 向量”的混合检索——既保留灵活性，又确保召回的准确与全面。

MemOS 的整体性能表现

我们也把整套框架与主流开源方案在 LoCoMo 和 LongMemEval 两个数据集上做了横向性能比较。然而我更想指出的是，现有评估体系尚难真实还原记忆框架在业务场景中的价值。多数评测把一百轮对话一次性塞进模型，仅测试基座对长上下文的处理能力，却忽略了记忆是在逐轮交互中缓慢生长的现实；用户键入查询、模型推理、阅读答案均耗时，若不在评估中模拟这些空隙，便无法体现记忆管理系统在真实环境中的优势。

MemOS 的开源框架与
OpenMem 社区

今年 7 月底，我们开源了 MemOS Preview，并发起国内首个聚焦记忆管理的开源社区 OpenMem，邀请高校研究团队与工业界伙伴共同探讨记忆技术的演进方向，沉淀通用标准与协议。开发者社区保持完全开放，API 服务框架已发布第一版，第二版将于 10 月 31 日上线，未来一年对所有调用量级与性能需求均免费，涵盖“记忆即服务”与“推理即服务”。同时提供可私有化部署的版本，满足高安全场景需求。

MemOS 的典型应用场景

之所以打造 MemOS，源于团队自 2023 年成立至今在 ToB 项目中的切身体会。无论是智能投顾还是工业运维，客户对个性化记忆的诉求高度一致：希望把员工与 AI 中枢交互产生的公共经验固化下来。在工业现场，若资深技师退休且未带徒，其调试经验往往随人散失；企业期待记忆平台能留存“为何把参数设为 5%”这类过程信息，而非仅记录结果。开源后，已有开发者将 MemOS 应用于酒店商户服务、科研助手等场景，显著提升了人工反馈准确率与个性化服务水平。

One More Thing

既然我们自视为“记忆操作系统”，就不能只停留在基座训练与中间件层面；操作系统必须拥有自己的语言。换句话说，当用户以自然语言与系统交互时，如何以最高效率完成编排，是成败关键。

设想一句看似简单的请求：“请帮我记录昨天与某人的会议内容，并在后天提醒我撰写技术报告。”其背后隐含多个基础算子：先检索日程，抑或先更新用户画像？是否需要重写、摘要，还是直接扩展？过去，这些逻辑由算法工程师硬编码，导致大量边界情况难以覆盖。因此，我们正在构建一套自动化编排语言框架，让任意自然语言输入都能被实时解析为系统可执行的操作序列，显著降低开发者接入成本。

最后，以公司 Slogan 作结：智能始于记忆，张量链接未来。谢谢大家。

演讲嘉宾介绍

李志宇，博士，记忆张量（上海）科技有限公司联合创始人兼 CTO、上海算法创新研究院大模型中心技术负责人、研究员。长期从事预训练和大模型应用方向的研发技术攻关，主要研究方向包括大模型记忆增强、高效评估与应用算法。曾在阿里巴巴、小红书等头部科技企业带队承担多个核心算法方向，技术成果服务于商品评价、双十一大促、营销广告等超大规模业务场景，累计带来数十亿营收，影响用户近亿人次，并获得双十一技术突破奖。近年来，先后和团队提出了首个记忆分层的创新架构大模型，以及业内业内首个大模型记忆操作系统（MemOS），MemOS 开源 6 个月累计获得 Star 数超 5800+，开发者数超 11000+，为大模型的记忆增强落地提供了可行的探索路径。相关大模型技术成果已在中国银行、招商证券、中国电信、新华社等多家国央企落地应用。当前已在 Patterns（Cell Press）、NeurIPS、ICLR、ACL 和 TKDE 等国际会议期刊发表论文 70 余篇、授权专利 10 余项。现任中国中文信息学会信息检索专委会委员、大模型与生成专委会委员，相关研究工作入选《麻省理工科技评论》封面报道、《机器之心》、《量子位》和《PaperWeekly》的头条报道，并多次登顶 Huggingface 热点论文 Top1。

会议推荐

2026，AI 正在以更工程化的方式深度融入软件生产，Agentic AI 的探索也将从局部试点迈向体系化工程建设！

QCon 北京 2026 已正式启动，本届大会以“Agentic AI 时代的软件工程重塑”为核心主线，推动技术探索从「AI For What」真正落地到可持续的「Value From AI」。从前沿技术雷达、架构设计与数据底座、效能与成本、产品与交互、可信落地、研发组织进化六大维度，系统性展开深度探索。开往 2026 的 Agentic AI 专列即将启程！汇聚顶尖专家实战分享，把 AI 能力一次夯到位！