一个用户同时在Claude Desktop、Cursor、Cline里和AI对话,三个窗口的记忆互不相通——这是当前AI助手最割裂的体验。Compass v0.9想解决的就是这个:同一个user_id跨客户端共享记忆,Claude官方记忆做不到,Mem0、Letta、Zep也做不到。

更意外的是它的测试成绩。LongMemEval-S(500题、6种认知类型、5万token上下文)拿到56.6%,跟Zep的SOTA区间(55-60%)持平,成本只有对方的1/15。测试组合是DeepSeek V3.2 + 本地bge-m3 + 五层流水线。

打开网易新闻 查看精彩图片

LongMemEval-S测的是大模型在超长对话里"翻旧账"的能力:检索、计数、更新信息、时间线推理。公开基线里Letta 35-38%,Mem0 40-45%,A-MEM约50%,论文RAG 50-60%。Compass用五招堆到56.6%:

打开网易新闻 查看精彩图片

第一招贡献最大:多角度查询重写(+27分)。遇到"用户不能吃什么"这种模糊问题,系统拆成三个角度——直接问、提取主题词、对话标记词——各取前15条结果再合并。但只用于ssu类型,其他类型会稀释信号。

第二招是多会话分解提示(+8分)。LLM面对5段以上扁平会话容易数错,提示词改成"先按会话拆分计数,再汇总"。剩下三招:知识更新时间戳提示(+2-3分)、上下文长度2400→3500字符(+2分)、TOP_K 10→15(+0.5分)。十页纸的增益, empirically 可加。

他们也记录了四个"负向发现"——很多论文会跳过这部分。Neo4j图重排序倒扣6.2分(封闭上下文里信号冗余);双模型路由倒扣2.1分(50题样本量不足以区分);SSP"推断偏好"提示倒扣37.5分(LLM不管问题是什么都编造食物相关答案);MiniMax thinking-1024模式更是灾难。

打开网易新闻 查看精彩图片

MiniMax的案例值得单说。50题样本测出来45.8%,看着正常;全量500题一跑,拒答率从17%飙到44%,准确率掉到33%。换thinking-8192加规则6提示词,43.8%,还是崩。最后方案:关掉思考模式(nothink),45.8%全量通过。这是文献里记录最完整的"思考模式导致系统性失败"案例。

横向对比thinking开关:DeepSeek V3.2开thinking涨6.8分(39.6%→46.6%),GLM-5.1涨2.1分,Kimi K2.6零变化,MiniMax开thinking直接崩溃。结论很朴素:每个模型、每个版本,thinking开不开必须单独测。

安装方式也极简:pip install nautilus-compass,或者npx -y @nautilus/compass-mcp。MCP服务器、A2A适配器、npm包装、Nautilus代理一键集成全打包。GitHub仓库已公开,MIT协议。