你的Claude、Cursor、Cline能记住同一件事吗?Compass v0.9做到了。这个刚开源的记忆联邦插件,让同一用户ID跨所有主流AI客户端共享记忆——Claude Desktop、Cline、Cursor、OpenClaw、Hermes全部打通。官方强调:claude-mem做不到,Mem0、Letta、A-MEM、Zep也做不到。

更意外的是成绩。LongMemEval-S测试(500题,6种认知类型,5万token对话堆叠)拿到56.6%,与Zep的SOTA区间持平,成本却只有1/15。这套方案跑在DeepSeek V3.2 + 本地bge-m3上,靠一个5组件流水线实现。

打开网易新闻 查看精彩图片

核心技巧是什么?团队公开了排名:多角度查询重写贡献最大(+27分)。面对"用户不能吃什么"这类模糊问题,系统会拆成3个角度——直接查询、主题提取、对话标记——各取前15结果再合并。非ssu类型则跳过,避免信号稀释。其次是多会话分解提示(+8分):LLM面对5个以上平铺会话会数错,提示词改成"先按会话分解再汇总"就解决了。其余三项——知识更新时间戳、ssa上下文扩展、TOP_K调整——合计约+5分,经验证可叠加。

打开网易新闻 查看精彩图片

团队还记录了4个"负向发现":Neo4j图重排序让成绩掉6.2分(封闭堆叠里信号冗余),双模型路由掉2.1分(50题样本噪声太大),SSP"推断偏好"提示崩掉37.5分(LLM不管问题是什么都编造食物答案)。最戏剧性的是MiniMax thinking-1024的"拒绝级联崩溃"——50题样本看45.8%正常,500题全量拒绝率从17%飙到44%,准确率跌至33%。团队称这是文献中"思维模式导致系统性失败"的最强 documented case。

思考模式的模型差异也被量化:DeepSeek V3.2开thinking涨6.8分,GLM-5.1涨2.1分,Kimi K2.6零变化,MiniMax开thinking反而崩盘。结论很直白:每个模型每个版本都要单独测,不能假设。

打开网易新闻 查看精彩图片

安装方式有两种:pip install nautilus-compass,或npx -y @nautilus/compass-mcp。MCP服务器、A2A适配器、npm包装器、Nautilus一键集成全部打包。MIT协议,GitHub已公开。