这个开源插件让Claude、Cursor共享记忆，成本只有Zep的1/15|cursor|上下文|开源插件|服务器|自然语言

一个用户同时在Claude Desktop、Cursor、Cline里和AI对话，三个窗口的记忆互不相通——这是当前AI助手最割裂的体验。Compass v0.9想解决的就是这个：同一个user_id跨客户端共享记忆，Claude官方记忆做不到，Mem0、Letta、Zep也做不到。

更意外的是它的测试成绩。LongMemEval-S（500题、6种认知类型、5万token上下文）拿到56.6%，跟Zep的SOTA区间（55-60%）持平，成本只有对方的1/15。测试组合是DeepSeek V3.2 + 本地bge-m3 + 五层流水线。

LongMemEval-S测的是大模型在超长对话里"翻旧账"的能力：检索、计数、更新信息、时间线推理。公开基线里Letta 35-38%，Mem0 40-45%，A-MEM约50%，论文RAG 50-60%。Compass用五招堆到56.6%：

第一招贡献最大：多角度查询重写（+27分）。遇到"用户不能吃什么"这种模糊问题，系统拆成三个角度——直接问、提取主题词、对话标记词——各取前15条结果再合并。但只用于ssu类型，其他类型会稀释信号。

第二招是多会话分解提示（+8分）。LLM面对5段以上扁平会话容易数错，提示词改成"先按会话拆分计数，再汇总"。剩下三招：知识更新时间戳提示（+2-3分）、上下文长度2400→3500字符（+2分）、TOP_K 10→15（+0.5分）。十页纸的增益， empirically 可加。

他们也记录了四个"负向发现"——很多论文会跳过这部分。Neo4j图重排序倒扣6.2分（封闭上下文里信号冗余）；双模型路由倒扣2.1分（50题样本量不足以区分）；SSP"推断偏好"提示倒扣37.5分（LLM不管问题是什么都编造食物相关答案）；MiniMax thinking-1024模式更是灾难。

MiniMax的案例值得单说。50题样本测出来45.8%，看着正常；全量500题一跑，拒答率从17%飙到44%，准确率掉到33%。换thinking-8192加规则6提示词，43.8%，还是崩。最后方案：关掉思考模式（nothink），45.8%全量通过。这是文献里记录最完整的"思考模式导致系统性失败"案例。

横向对比thinking开关：DeepSeek V3.2开thinking涨6.8分（39.6%→46.6%），GLM-5.1涨2.1分，Kimi K2.6零变化，MiniMax开thinking直接崩溃。结论很朴素：每个模型、每个版本，thinking开不开必须单独测。

安装方式也极简：pip install nautilus-compass，或者npx -y @nautilus/compass-mcp。MCP服务器、A2A适配器、npm包装、Nautilus代理一键集成全打包。GitHub仓库已公开，MIT协议。