2024年初,Lumen Labs的团队发现了一个反直觉的数据:他们的AI助手能准确检索邮件内容,却在处理"把下周三的会议改到周五,并通知所有参会者"这类指令时,成功率不到40%。
问题不在生成能力。GPT-4的邮件写得够像人,日历API调用也没出错。真正卡壳的地方,是系统根本不懂"下周三"和"这封邮件"之间有什么关系——它只是找到了两段相似的文本,然后拼在一起。
从"相似"到"关系":RAG的天花板在哪
他们最初用的架构和大多数人一样:文本切块、向量化、相似度检索。这套流程在问答场景里跑得通,用户问"上季度营收多少",系统能捞出财报里的对应段落。
但主动式助手的需求完全不同。它要理解"这封邮件来自你的直属上级""这个会议冲突了你标记为'重要'的健身时间""这个客户三个月没回复但上周突然点了赞"。
这些判断需要的不是"哪段文本最像",而是"这些实体如何连接"。向量相似度能告诉你两封邮件都在谈项目延期,但它不知道A邮件的延期导致了B邮件的预算调整,而预算调整又关联到C邮件的人事变动。
Lumen Labs的联合创始人用了一个类比:「RAG就像给你一堆按颜色排序的便签纸。你需要红色,它能快速找到所有红色的。但如果你要问'为什么这个红色便签会和三个月前的蓝色便签产生冲突',它就懵了。」
团队试了各种优化——更大的上下文窗口、更细的切块策略、重排序模型。边际收益递减得很明显。到2024年中,他们意识到这不是调参能解决的问题。
七个月前的"掀桌"决定
2024年8月,Lumen Labs做了一个在内部被称为"brain pivot"的决策:暂停助手产品的迭代,全员转向一个原本只是辅助模块的"记忆层"。
这个模块最初的设计目标很简单——帮RAG结果做一点后处理,提取实体、补全关系。但越深挖,团队越发现它才是瓶颈所在。
他们重新设计了整个数据流:
旧路径:切块 → 嵌入 → 检索 → 生成
新路径:摄取 → 提取 → 连接 → 图谱 → 查询
关键变化是把"向量"从主角降格为配角。嵌入仍然用于初步筛选,但核心抽象变成了实体关系图。一封邮件不再是一串768维的向量,而是一个节点,发件人、收件人、提及的项目、关联的日历事件都是相连的节点。
查询方式也随之改变。用户不再问"什么文本和我的问题最像",而是在问"从我的当前上下文出发,能导航到哪些相关信息"。
这个区别在实际交互中很微妙但很关键。当用户说"帮我准备和Sarah的会",系统需要知道:Sarah是谁(通讯录)、最近和她有什么往来(邮件/消息)、她负责哪个项目(内部系统)、这个项目目前卡在哪(工单系统)。RAG能分别检索这些,但图谱能直接遍历连接。
生产环境里的真实表现
Lumen Labs在B2B场景里跑了这套系统六个月,覆盖了几个特定用例。他们公开的数据不多,但提到了一个典型场景:销售团队的客户背景调研。
传统RAG方案的问题是,它能找到"客户CEO在Q3财报会上提到供应链压力",也能找到"我们的解决方案有供应链模块",但无法判断这两件事的关联强度——除非它们在文本里恰好离得很近。
图谱方案的做法是显式建模:CEO言论 → 公司战略优先级 → 部门预算分配 → 采购决策链 → 我们的对接人。查询时不是匹配关键词,而是沿着关系链游走。
团队还实验了一个叫"极性(polarities)"的功能。传统搜索返回排序后的结果列表,这个模式会返回一个"解空间"——围绕某个问题的多种可能方案,以及它们在图谱中的位置关系。
比如问"怎么推进这个 stalled 的客户",系统可能同时呈现:激进方案(绕过当前对接人,找更高层)、保守方案(等待Q4预算周期)、折中方案(先推动一个小规模试点)。这些方案不是生成出来的,而是从图谱中不同路径的终点提取的。
为什么现在公开
2025年3月,这个内部代号为"BrainAPI"的系统正式对外开放。Lumen Labs的表态很克制:他们不认为这会取代RAG,而是把它定位为"RAG应该是更大系统的一部分"。
这个时机选择本身就有信息量。过去18个月,RAG几乎成了AI应用的默认基建,从开源框架到云厂商都在卷向量数据库的性能和成本。但生产环境中的痛点正在浮现——检索准确率高了,推理准确率却没同步提升,因为系统缺乏对检索结果的结构化理解。
Google DeepMind去年的一篇论文也指向类似方向:纯神经网络在需要多跳推理的任务上表现不稳定,显式知识图谱能显著提升可靠性。学术界和工业界的解法开始收敛。
Lumen Labs的联合创始人说:「我们花了太长时间才意识到,用户要的不是一个更聪明的搜索引擎,而是一个有记忆、有上下文的协作伙伴。」
这个判断是否正确,还得看BrainAPI在公开环境下的表现。但有个细节值得注意:他们的早期客户里,有几家原本自建了RAG系统,迁移过来不是因为检索速度或成本,而是"同样的问题,答案不一致"——向量相似度的随机性在复杂场景里成了不可接受的bug。
如果结构化记忆层真的成为下一代AI应用的标配,现在的向量数据库厂商会怎么应对?是补上图谱能力,还是守住检索效率的基本盘?
热门跟贴