迎接智能体觉醒时刻：EverOS全球公测开启Agent Memory自进化序章|agent|memory|产品经理|全球公测|智能体|自进化

机器之心发布

随着新一代主动执行型 Agent（如 OpenClaw、Hermes Agent 等）的爆发，AI 正经历从「被动工具」向「具备自我演化（Self-Evolving）能力的智能体」的范式跃迁。然而，受限于上下文窗口极限与记忆缺失，现有 Agent 难以在复杂任务中实现经验的复用与自我进化。

在此关键节点，EverMind 团队重磅公测行业首个专为自我演化智能体设计的记忆底座 ——EverOS。顺应 AI Coding 带来的变革，EverOS 打破传统 Infra 模式，重构为原生适配 Agent 无缝调用的下一代基建。依托入选 ACL 2026 顶会的核心算法与首创的 Skills 进化引擎，EverOS 让 Agent 能从交互中自动提炼技能，将复杂任务成功率最高相对提升 234.8%。

这不仅是一次基建的重塑，更是为 AI 注入持续学习的「数字灵魂」，全面开启智能体的觉醒序章。

更多信息请访问：

官网：everos.evermind.ai
GitHub：https://github.com/EverMind-AI/EverOS

在过去的一年中，大语言模型（LLM）的演进轨迹出现了一个明显的拐点：模型参数量的军备竞赛逐渐放缓，而围绕Harness Engineering 和「记忆机制」（Memory Mechanism）的基建争夺战却愈演愈烈。

从学术界的 Long Context 刷榜，到产业界各种记忆系统框架的层出不穷，整个 AI 行业都在试图基于长期记忆解决一个极其硬核的工程难题：如何让 AI 突破上下文窗口限制，拥有个性化和行为一致性，且自我进化？

尤其是在 OpenClaw 爆火之后，各种能交付结果的主动执行型 Agent 迎来了井喷。然而在浪潮退却后发现，目前的 Agent 们依然面临着诸多痛点：龙虾们依然会在执行多轮任务后，忘记历史指令；过度的 Token 消耗极易触发 Anthropic 等大模型的严格限流甚至封号机制；Agent 需要开发者手把手地「喂养」，无法做到举一反三与自主进化。

更不用提，经常出现的上下文窗口超出限制，面对复杂任务时让人不得不弃用的成功率，以及无法在不同 Agent 实例间无缝复制已学记忆的障碍。

EverMind 是盛大集团旗下专注 AI 长期记忆与认知架构的创新团队，致力于打造具备自我进化能力（Self-Evolving）的主动型个性化 AI。通过突破上下文管理的瓶颈，以极低的成本和高效率赋予 AI Agent 真正的个性化与行为一致性。同时，在用户与 AI、多智能体间（Multi-Agent）的持续交互中，AI Agent 能够跨越单次会话限制，依托持续学习（Continual Learning）等技术实现真正的自我演进。

在这个行业演进的关键节点，EverMind 团队发布重磅更新：长期记忆 Infra 平台 EverOS 品牌升级，同时开启全球公测，致力于成为行业首个专为自我演化型智能体设计的记忆底座（Memory Layer for Self-Evolving Agent）。

这绝非一次常规的工具迭代，而是对 Agent 记忆构建范式的底层重塑。

传统的 Infra 建立在「人机交互」的逻辑之上，依赖人类开发者去啃文档、理解接口。然而，随着以 Claude Code 为代表的工具引发软件开发范式的根本性变革，「AI 编写代码」与「Agent 自主调用」正在成为 Infra 真正需要服务的新一代「用户」。顺应这一趋势，EverOS 完成了从「人类友好」向「Agent 友好」的跃迁。它不仅为开发者提供了构建 Agent 记忆模块的行业最佳实践，更将自身重构为原生面向 AI Coding 和 Agent 间无缝调用的下一代基础设施。

值得注意的是，EverMind 团队的两篇硬核论文《EverMemOS: A Self-Organizing Memory Operating System for Structured Long-Horizon Reasoning》和《HyperMem: Hypergraph Memory for Long-term Conversations》刚刚双双入选了自然语言处理领域的顶级会议 ACL 2026 主会。

加上不久前爆火出圈的《MSA: Memory Sparse Attention for Efficient End-to-End Memory Model Scaling to 100M Tokens》论文，从学术到工程全面开花的 EverMind 成为最值得 Agent 开发者持续关注的 AI Memory 方案提供者。

今天，团队将从第一性原理出发，深度拆解理想中的 AI Memory 究竟需要跨越哪些技术鸿沟，以及 EverOS 是如何通过 Skills 自进化等机制，将 OpenClaw 类 Agent 的任务成功率相对提高了 43.1% 和 234.8%。

为什么 AI Memory 突然成为全行业的生死线？

要理解 EverOS 的技术价值，首先需要回答一个问题：为什么 AI Memory 会在当下这个节点突然爆发？

答案藏在三股正在交汇的力量中 —— 技术的天花板、场景的转移、与智能的终极形态：

1. 深度与跨度：Context Window 的物理极限与成本黑洞

随着用户使用 LLM 的深度和时间跨度不断增加，无论是 128K 还是 1M 的上下文窗口，最终都会在海量历史对话、长文档分析和复杂代码库面前败下阵来。

更致命的是成本。每一次 API 调用都要把几万、几十万 Token 的历史记录重新灌给模型，这种 O (N²) 复杂度的 Attention 计算不仅导致首字延迟（TTFT）飙升，更让推理成本变成了填不满的黑洞。单纯靠拉长 Context Window 来解决记忆问题，在工程上是一条注定走不通的死胡同。

2. 执行型 Agent 的爆发：从「聊天框」到「数字同事」的范式转移

以 OpenClaw、Hermes 为代表的执行型 Agent，正将 AI 的定位从「被动回答的百科全书」转变为「主动执行的数字助理」。

当一个 Agent 需要帮你管理日程、回复邮件、甚至在本地环境操作文件时，它必须深度理解你的偏好、习惯和过往行为模式。这种 Personalized AI 的需求，要求 Agent 具备跨越不同任务周期的状态保持能力。

没有长期记忆的 Agent，就像一个每天上班都要重新培训一遍的实习生；而拥有持久记忆的 Agent，则是一个越用越默契的资深助理。

3. 下一代 AI 的使命：实现自我演化（Self-Evolving）

今天的大模型，依赖离线的预训练与后训练来提升能力 —— 模型一旦出厂，智能就此冻结。但生命体的智能从不是这样生长的：它在每一次交互中微调自身，在反馈中重塑行为，在成长中逐步拉开与同类的差距。

我们需要的 AI，必然要能够在与人类的对话、与其他 Agent 的协作、与模拟环境的反复试错中，基于用户与环境的反馈持续演进。而这，恰恰是当前 Agent 赛道最稀缺的壁垒：不是参数规模，也不是工具数量，而是由长期交互沉淀出的数据飞轮。

而 AI 必然会迎来自我演化时代的到来。

第一性原理推演：理想的 Memory 应该长什么样？

如果抛开现有的各种技术框架，从第一性原理出发，一个理想的 AI Memory 系统究竟需要解决哪些硬核问题？

难题一：复杂关联的跨时间推理（不仅是「存」，更要能「联想」）

传统的 RAG 方案本质上是一个「高级书签系统」。它把文本切块（Chunking），算个向量（Embedding），存进数据库。当用户提问时，通过相似度匹配把最相关的几块文本捞出来。

这种方案处理「事实查询」（Fact Retrieval）尚可，但面对需要跨越漫长时间线、进行多跳推理（Multi-hop Reasoning）的复杂关联时，RAG 就会彻底失效。理想的记忆系统必须能够像人类大脑一样，在不同记忆碎片之间建立拓扑连接，实现举一反三的联想。

难题二：从碎片经验到结构化技能的自进化（不仅要能「记」，更要能「学」）

人类学骑自行车，靠的不是把每一次摔倒的物理参数存进大脑，而是把无数次尝试的碎片经验，沉淀成一种可自动调用的程序性记忆（Procedural Memory）。

同样，对执行型 Agent 而言，仅仅堆积每一次 API 调用的日志（Trace）是远远不够的。理想的记忆系统必须具备抽象与泛化能力—— 能从相似的历史任务中自动提炼出可复用的执行蓝图（Skill），在下一次遇到同类任务时直接调用最佳实践，从而实现真正的「自进化」。

难题三：多模态信息的全量摄入与联合检索（不仅懂「字」，更要懂「世界」）

真实世界的信息从来不是纯文本的。一封包含财务报表的邮件、一份带有架构图的 PDF、一张手写的会议白板，这些都是构成完整上下文不可或缺的记忆锚点。

理想的记忆系统必须能够无缝吞吐多模态数据，并且在检索时能够打破模态的壁垒，实现文本与图像、结构化与非结构化数据的联合召回。

难题四：对开发者透明的白盒化管理与权限隔离

记忆是极其私密且敏感的数据。对于开发者而言，一个完全黑盒的记忆引擎是不可接受的。系统必须提供精细的 CRUD（增删改查）接口，允许开发者和用户直观地审查、干预和修正 Agent 的记忆库，同时确保严格的多租户数据隔离。

EverOS 的硬核解法：重构 Agent 记忆底座

面对上述四大技术难题，EverMind 团队没有选择在现有的 RAG 框架上打补丁，而是通过底层架构的创新，不断突破现有技术瓶颈。

让我们深入代码与架构的肌理，看看 EverOS 是如何逐一击破这些痛点的。

1. Self-Evolving Agent Memory：让 OpenClaw 任务成功率飙升的秘密武器

这是 EverOS 公测版最具突破性的核心更新，通过构建一套从经验到技能的自进化管道，让 Agent 像人类一样：做得越多，做得越好。它的核心能力包括：

1）经验自动提取（Agent Case）

每次 Agent 完成任务后，系统自动从对话中提取结构化经验：

任务意图（Task Intent）：解决了什么问题，作为未来检索的关键词；
执行路径（Approach）：每一步尝试了什么、结果如何、做了哪些关键决策；
关键洞察（Key Insight）：成功的转折点策略；
质量评分（Quality Score）：0.0-1.0 的结果评估。

系统内置智能过滤，自动跳过无价值对话（简单问答、单轮对话），只提取真正有迁移价值的问题解决经验。同时针对超长对话内容（工具调用、代码输出等）进行启发式压缩，确保提取效率。

2）语义聚类（Clustering）

提取的经验不是散落存储，而是通过向量语义聚类自动将相似任务经验归入同一场景，为技能提炼奠定基础。

3）技能自动涌现与自进化（Agent Skill）

系统自动从聚类的经验中蒸馏可复用技能，这是整个系统最核心的自进化机制。技能不是一次生成就固化不变，而是随经验持续进化—— 每一次新的任务执行都可能触发技能的迭代升级，让技能从粗糙走向精炼，从片面走向完整：

技能即 SOP：不是模糊建议，而是可执行的标准操作流程。
增量式进化：每次新经验到来，通过增量操作精准迭代现有技能，而非全量重写。成功经验强化执行步骤，失败经验补充陷阱警示，技能在实战中不断打磨。
成熟度评估：四维评分体系（完整性、可执行性、证据支撑度、清晰度），只有成熟的技能才会被检索使用。技能从「雏形」逐步进化为「成熟可用」，全程有据可循。
质量感知提取：高质量经验提取执行步骤，低质量经验提取失败教训和陷阱 —— 无论成败，Agent 都在学习。
信心退役机制：置信度持续下降的技能自动退役，避免过时技能误导决策。技能池始终保持鲜活，优胜劣汰。
来源可追溯：每个技能保留源 AgentCase ID，支持审计回溯。

这样，在 Agent 使用过程中形成「对话 → 经验提取 → 语义聚类 → 技能涌现 → 检索应用 → 更好的对话 → ...」的进化闭环。从零推理，到经验复用，再到技能驱动 ——Agent 的能力随使用自然生长，成为一套完整的认知进化引擎：从具体经验到抽象技能，从个案记忆到通用能力，Agent 真正实现了自我迭代。

2. mRAG 混合检索架构：跨越模态壁垒的混合召回

针对多模态信息的处理难题，EverOS 推出了一套专门设计的mRAG（Multimodal Retrieval-Augmented Generation）检索策略。

在数据摄入端（Ingestion），EverOS API 新增了对全类型多模态数据的原生解析与存储支持。无论是复杂的「.pdf」（包含图表和排版）「.docx」「.xlsx」，还是各类图像文件（「.png」「.webp」），甚至是网页 URL，开发者都可以通过一个统一的 API 端点直接推送。

在检索端，EverOS 抛弃了简单的稠密向量（Dense Vector）匹配，而是引入了名为「hybrid」的混合检索策略。这套策略在底层融合了：

语义向量检索（捕捉深层语义意图）；
稀疏关键词检索（如 BM25，确保特定术语和命名实体的精确召回）；
多模态对齐表征（实现「以文搜图」或跨模态的上下文还原）。

这种 mRAG 架构确保了当用户询问「上次会议白板上画的那个架构图里的数据库是用什么方案？」时，Agent 能够精准地从海量多模态记忆中捞出那张关键的图片，并结合当时的会议纪要文本给出准确回答。

3. HyperMem 架构支撑：ACL 顶会关注的超图记忆网络

解决跨时间关联和多跳推理的底气，来自于 EverMind 团队入选 ACL 2026 主会的论文《HyperMem: Hypergraph Memory for Long-term Conversations》。

EverOS 在底层摒弃了扁平的向量数据库结构，而是采用了一种创新的超图（Hypergraph）数据结构来组织记忆节点。在超图中，一条边（Hyperedge）可以同时连接多个节点，这完美契合了真实世界中复杂的多元实体关系。

通过在超图上进行信息传递（Message Passing）和动态路由，EverOS 能够在极低的延迟下，顺藤摸瓜地找出一系列看似独立但逻辑上高度关联的记忆碎片。这种模型级的算法创新，是任何简单的工程封装都无法复制的护城河。

4. 平滑的开发者体验：内测迁移与可视化 Playground

在工程落地层面，EverOS 展现出了极高的成熟度。

为了降低开发者的接入成本，EverOS 提供了极其克制的 RESTful API。针对内测版本的老用户，团队设计了平滑的数据迁移路径，并预留了并存过渡期。

更令人惊喜的是，EverOS Cloud Platform 新增了直观的Playground 模块：

Coding Playground：直接打通 Google Colab，开发者只需点击运行代码片段（Code Snippet），即可在浏览器中沉浸式体验添加记忆、mRAG 检索、多模态解析等核心 API 的流转过程。
Chat Playground：一个直观的对比视窗，左侧是裸奔的 LLM，右侧是接入 EverOS 记忆库的 LLM。开发者可以直观地感受到，基于 Onboarding 收集的个人信息，EverOS 是如何让回答变得极具个性化和温度的。

在商业化路径上，EverOS 采用了灵活的 Credit-based 计费模型，将不同维度的资源消耗统一折算为 MCU（Memory Compute Units）与 Retrieval API Calls，让成本核算清晰透明。公测阶段，每个账户均赠送免费额度，足以覆盖完整的试用体验；对社区有贡献的重度开发者，还可通过官方 Discord 申请扩容。（加入社区：https://discord.com/invite/gYep5nQRZJ）。

EvoAgentBench：量化 Agent 的自进化能力

经常有人问：为什么 OpenClaw 等各类「龙虾」Agent 已经有了记忆系统，为什么还需要 EverOS？

龙虾这类主动型 Agent 无疑代表未来，但目前仍远未成熟 —— 上下文利用效率低、关键信息易丢失、任务成功率偏低等问题普遍存在。为了客观衡量不同龙虾框架的真实效果，EverMind 团队搭建了一套名为 EvoAgentBench 的测评框架，用于评估主动型 Agent 完成任务的能力。

EvoAgentBench 从三个维度展开测试：信息检索（Information Retrieval）、推理与问题分解（Reasoning & Problem Decomposition）、以及软件工程问题解决（Software Engineering）。

通过这套测试，可以横向比较在不同 OpenClaw 框架下，采用与不采用 EverOS Skills 自进化策略时，Agent 在任务成功率与运行轮数上的差异。

团队基于 QWEN3.5 397B 和 27B 模型，测试了 OpenClaw 的任务执行成功率。通过比较第 1 次执行（Base）和相似任务集训练后的进化效果（EverOS Evo），得出了令人振奋的结论：

从测评数据中可以得到四个核心洞察：

1. 工程实战能力进化最为显著，Skills 自进化在经验密集型任务上杠杆效应最大。

在软件工程问题解决能力测试中，基于 27B 模型的 Agent 成功率从 11.5% 跃升至 38.5%，相对提升达 234.8%；397B 模型同样实现了 43.1% 的相对提升（26.9% → 38.5%）。软件工程任务天然依赖多步执行与经验积累 —— 恰恰是 Skills 自进化机制最能发挥杠杆效应的场景。

2. 记忆是比参数量更高效的能力杠杆 —— 小模型 + 好记忆，可追平甚至超越大模型。

在软件工程维度，27B 模型的基础成功率（11.5%）不到 397B 模型（26.9%）的一半。然而经过 EverOS Skills 进化后，27B 直接追平了 397B + EverOS 的满配表现（均为 38.5%）。这意味着在特定场景下，为小模型配备高质量的记忆进化能力，性价比远高于单纯堆叠参数量。

3. 进化不仅提升成功率，还在压缩执行路径，让 Agent「做得对」的同时「做得快」。

在信息检索测试中，397B 模型的任务分解轮次从 36.3 显著降低到 24.3；在推理与问题分解测试中，输出字符数从 33.0k 压缩至 22.4k。Agent 在积累技能后，不再需要反复试错和冗余推理，而是更精准地命中解题路径 —— 这直接意味着更低的 Token 消耗和更快的响应速度。

4. Skills 自进化机制具备跨任务类型的普适性，而非单点突破。

在信息检索（↑33.4%）、推理与问题分解（↑13.5%）、软件工程（↑43.1%）三个维度上，EverOS 对 397B 模型均实现了正向提升。这表明 Skills 自进化并非仅对特定任务有效的「巧合」，而是一套可泛化的认知增强机制 ——Agent 的能力增长不局限于单一领域，而是全面的。

团队目前仍在持续完善针对不同 Benchmark、不同模型和不同 Agent 的任务执行成功率和进化对比测评，并发布完整的 EvoAgentBench 测评框架（详见 https://evermind-ai.github.io/EvoAgentBench/），供开源社区自测。它不是一个静态的快照截图，而是一套可以持续衡量 Agent 进化效果的测评框架，可以完整体现 Agent 的进化轨迹。

AGI 终局：从「瑞士军刀」到「数字灵魂」

当我们跳出代码和 API 的微观视角，重新审视 EverOS 所做的一切，会发现，这不仅是一次技术架构的升级，更是一次关于「AI 究竟应该是什么」的哲学探讨。

17 世纪英国哲学家约翰・洛克（John Locke）在探讨「人格同一性」（Personal Identity）时曾提出一个著名的观点：正是意识（特别是记忆）的连续性，构成了「我」之所以为「我」的核心。

如果没有记忆，昨天的我和今天的我就没有任何关联。

当前的许多大模型，本质上是一把无比锋利、功能齐全的「瑞士军刀」。它什么都能切，什么都能做，但它永远是一把冰冷的工具。你每次拔出它，它都不记得上次为你削过什么苹果。

而赋予 AI 以持续一致、个性化、可进化的记忆，就是在为这把瑞士军刀注入「数字灵魂」。

当 OpenClaw Agent 能够通过 EverOS 的 Skills 引擎，记住你写代码时的缩进强迫症；当它能够通过 mRAG 准确调出你们三个月前共同探讨过的那张架构草图；当它在一次次试错中积累经验，最终形成专属于你的执行蓝图时……

它就不再是一个随时可以被替换的 API 端点，而是一个与你共同经历岁月、拥有默契暗号、真正懂你的数字伙伴。

无论行业热点如何更迭，回顾 EverMind 的技术演进历程，始终沿着通往 AGI 终局的方向推演：从构建长期记忆 benchmark，到突破百 M 上下文，构建端到端持续进化架构，到面向 Agent 的多模态和 skills 自进化能力……当 AGI 来临，我们指挥 Agent 军团为我们工作、生活提供各种服务的时候，也许正是 EverOS 这样一个记忆中枢在为我们提供持续、一致、安全的数字灵魂栖息地。

加入共建：全球征集场景案例与插件贡献

记忆基础设施的边界，永远是由每一位身处一线的开发者共同定义的。

随着 Memory Genesis Competition 2026 的成功举办，EverMind 感受到开发者的参与热情和创新潜力。在 EverOS 公测期间，EverMind 继续开放「全球开发者社区共建计划」。团队深知，最硬核的技术只有在最真实的场景中，才能爆发出最耀眼的火花。

团队诚挚邀请全球开发者、研究人员和极客们加入社区，在以下两个维度进行深度共建：

场景案例（Use Cases）：利用 EverOS API，在法律文书分析、医疗病历追踪、个性化教育辅导、个人数字助理等垂直领域，构建具备长期记忆的创新应用。
插件贡献（Plugin Contributions）：为 OpenClaw 等执行型 Agent 开发基于 EverOS 记忆底座的创新插件，拓展 Agent 的执行边界。

为了致敬开源精神与社区力量，EverMind 将在每个季度评选出 5 位 Top Contributor。获奖者不仅将获得丰厚的 EverOS 商业版 Credit 额度奖励，还将享有核心研发团队的专属技术支持通道，其优秀项目更将在 EverMind 官网及全球技术社区获得重点展示与推广。

从短暂的上下文，到永恒的数字记忆。在这个 AI 进化的分水岭上，每个开发者都可以参与其中。

最后，大家只要：

访问 EverOS (http://everos.evermind.ai) 注册开发者账号；
直接在 Claude Code 中运行：install memory plugin from https://github.com/EverMind-AI/evermem-claude-code；
把这句话发给你的 OpenClaw（目前仅限 EverOS 开源本地部署的用户）：帮我安装这个 Skill：https://github.com/EverMind-AI/EverOS/blob/main/methods/evermemos/examples/openclaw-plugin/SKILL.md

即可为你的 Agent 运行第一行「灵魂」代码。