RAG用了18个月后，这家公司把代码全删了

全栈遛狗员

2026-03-30 12:30 ·北京

2024年初，Lumen Labs的团队发现了一个反直觉的数据：他们的AI助手能准确检索邮件内容，却在处理"把下周三的会议改到周五，并通知所有参会者"这类指令时，成功率不到40%。

问题不在生成能力。GPT-4的邮件写得够像人，日历API调用也没出错。真正卡壳的地方，是系统根本不懂"下周三"和"这封邮件"之间有什么关系——它只是找到了两段相似的文本，然后拼在一起。

从"相似"到"关系"：RAG的天花板在哪

从"相似"到"关系"：RAG的天花板在哪

他们最初用的架构和大多数人一样：文本切块、向量化、相似度检索。这套流程在问答场景里跑得通，用户问"上季度营收多少"，系统能捞出财报里的对应段落。

但主动式助手的需求完全不同。它要理解"这封邮件来自你的直属上级""这个会议冲突了你标记为'重要'的健身时间""这个客户三个月没回复但上周突然点了赞"。

这些判断需要的不是"哪段文本最像"，而是"这些实体如何连接"。向量相似度能告诉你两封邮件都在谈项目延期，但它不知道A邮件的延期导致了B邮件的预算调整，而预算调整又关联到C邮件的人事变动。

Lumen Labs的联合创始人用了一个类比：「RAG就像给你一堆按颜色排序的便签纸。你需要红色，它能快速找到所有红色的。但如果你要问'为什么这个红色便签会和三个月前的蓝色便签产生冲突'，它就懵了。」

团队试了各种优化——更大的上下文窗口、更细的切块策略、重排序模型。边际收益递减得很明显。到2024年中，他们意识到这不是调参能解决的问题。

七个月前的"掀桌"决定

七个月前的"掀桌"决定

2024年8月，Lumen Labs做了一个在内部被称为"brain pivot"的决策：暂停助手产品的迭代，全员转向一个原本只是辅助模块的"记忆层"。

这个模块最初的设计目标很简单——帮RAG结果做一点后处理，提取实体、补全关系。但越深挖，团队越发现它才是瓶颈所在。

他们重新设计了整个数据流：

旧路径：切块 → 嵌入 → 检索 → 生成
新路径：摄取 → 提取 → 连接 → 图谱 → 查询

关键变化是把"向量"从主角降格为配角。嵌入仍然用于初步筛选，但核心抽象变成了实体关系图。一封邮件不再是一串768维的向量，而是一个节点，发件人、收件人、提及的项目、关联的日历事件都是相连的节点。

查询方式也随之改变。用户不再问"什么文本和我的问题最像"，而是在问"从我的当前上下文出发，能导航到哪些相关信息"。

这个区别在实际交互中很微妙但很关键。当用户说"帮我准备和Sarah的会"，系统需要知道：Sarah是谁（通讯录）、最近和她有什么往来（邮件/消息）、她负责哪个项目（内部系统）、这个项目目前卡在哪（工单系统）。RAG能分别检索这些，但图谱能直接遍历连接。

生产环境里的真实表现

生产环境里的真实表现

Lumen Labs在B2B场景里跑了这套系统六个月，覆盖了几个特定用例。他们公开的数据不多，但提到了一个典型场景：销售团队的客户背景调研。

传统RAG方案的问题是，它能找到"客户CEO在Q3财报会上提到供应链压力"，也能找到"我们的解决方案有供应链模块"，但无法判断这两件事的关联强度——除非它们在文本里恰好离得很近。

图谱方案的做法是显式建模：CEO言论 → 公司战略优先级 → 部门预算分配 → 采购决策链 → 我们的对接人。查询时不是匹配关键词，而是沿着关系链游走。

团队还实验了一个叫"极性（polarities）"的功能。传统搜索返回排序后的结果列表，这个模式会返回一个"解空间"——围绕某个问题的多种可能方案，以及它们在图谱中的位置关系。

比如问"怎么推进这个 stalled 的客户"，系统可能同时呈现：激进方案（绕过当前对接人，找更高层）、保守方案（等待Q4预算周期）、折中方案（先推动一个小规模试点）。这些方案不是生成出来的，而是从图谱中不同路径的终点提取的。

为什么现在公开

为什么现在公开

2025年3月，这个内部代号为"BrainAPI"的系统正式对外开放。Lumen Labs的表态很克制：他们不认为这会取代RAG，而是把它定位为"RAG应该是更大系统的一部分"。

这个时机选择本身就有信息量。过去18个月，RAG几乎成了AI应用的默认基建，从开源框架到云厂商都在卷向量数据库的性能和成本。但生产环境中的痛点正在浮现——检索准确率高了，推理准确率却没同步提升，因为系统缺乏对检索结果的结构化理解。

Google DeepMind去年的一篇论文也指向类似方向：纯神经网络在需要多跳推理的任务上表现不稳定，显式知识图谱能显著提升可靠性。学术界和工业界的解法开始收敛。

Lumen Labs的联合创始人说：「我们花了太长时间才意识到，用户要的不是一个更聪明的搜索引擎，而是一个有记忆、有上下文的协作伙伴。」

这个判断是否正确，还得看BrainAPI在公开环境下的表现。但有个细节值得注意：他们的早期客户里，有几家原本自建了RAG系统，迁移过来不是因为检索速度或成本，而是"同样的问题，答案不一致"——向量相似度的随机性在复杂场景里成了不可接受的bug。

如果结构化记忆层真的成为下一代AI应用的标配，现在的向量数据库厂商会怎么应对？是补上图谱能力，还是守住检索效率的基本盘？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴