新智元报道
编辑:YHluck
【新智元导读】一套叫M-Flow的记忆引擎,最近在海外开发者社区讨论度飙升。GitHubstar瞬间破千,LoCoMo、LongMemEval、EvolvingEvents三大公开benchmark评测全部拿下第一,成绩一路跑在Mem0、Zep、Graphiti、Cognee、Supermemory前面。但它真正想讲的,不是「Benchmark跑分更高」,而是一件更根本的事——真正的Agent记忆,从来不该只是搜索引擎,而是要像人一样从联想中获得启发。
最近,海外的AI开发者圈子里,反复出现一个新名字——M-Flow。
引发了X(Twitter),Reddit,HackerNews的AI技术圈里热烈的讨论,Github stars飙升。
一个开源项目能在这么短的时间里被主动讨论到这种程度,只有一种可能——
它在一件「所有人都在做、但所有人都做得不够好」的事情上,做出了点不太一样的东西。
那件事,叫——Agent Memory。
凭什么说它是「Graph RAG新范式」?
现在市面上做Graph RAG的大多数玩家,本质上是在做一张扁平的图——不同颗粒度的信息是互相隔离的。
真上业务你就会发现,用户的问题和存入的内容很难「对齐颗粒度」:
节点一多,遍历就爆炸;
关系一杂,相关性就稀释;
想做长时序、跨事件的回忆,要么失忆,要么答非所问。
而来自中国的一个19岁团队心流元素所开发的M-Flow是唯一可以将相关性编码进图拓扑的。
它搞了一套叫做Cone Graph(锥形图谱)的分层结构:
最上层是Episode(情景)——完整的语义焦点。
中间一层是Facet(切面)——把这件事拆成若干截面。
最底一层是FacetPoint(切面点)——最小颗粒的原子事实、三元组。
横穿整个锥的,是Entity(实体)——人、项目、地点、产品,一条锚线串起所有层级,让信息不再孤立地躺在一个情景里。
三纵一横,锥形结构。
这是什么意思?
意思是检索的时候,你不再是在一堆散点里瞎搜,而是在一个有层级、有锚点、有语义骨架的结构里「走」。
搜索引擎是「给你最像的」,M-Flow是「给你相关的、该出现的」。
这就是Graph RAG新范式的开始。
主流Benchmark,全部第一
光讲理念没用,得看成绩单。
M-Flow把业内认可度最高的主流评测集全跑了一遍。
重点是对比的竞品全面,并且在所有主流测试中稳居第一。
这件事几乎从未出现在别的记忆项目中,要么是架构专精某一套题,要么省略跑分更高的竞品,也正因如此,无数人在自称SOTA。
M-Flow用的就是每个竞品自己公布的题目,以及每个竞品自己公布的、自己推荐的那套跑法。
换句话说——在对手的地盘上,按对手的规则打。
四个榜,四个第一。
不是「换个角度会更好看」,是全方位无死角,全线领先。
但如果M-Flow的故事只讲到这儿,就把它讲小了。
Benchmark是结果,不是原因。
M-Flow能在所有公开榜单上全线领先,不是因为它比别人更会「搜」,而是因为它比别人多了一样东西——联想。
真正的记忆,是联想
人类的灵感,从来不是凭空出现的
想象一个场景:你正在头疼,一个项目为什么一直延期。
突然,团队里有人随口说了一句——「张三好像根本不知道deadline提前过。」
就这一句话,你脑子里「啪」地一下:
周一的会、那次仓促的deadline变更、张三当时没说话的表情、谁也没明确是「谁该通知他」——紧接着,你又想起前三次类似的情况:决策会开了,但关键的人都不在场。
于是你抓到的结论,不是「张三漏了个信息」。
而是:「这不是执行问题,是沟通链问题。」
这就是联想。
一个小线索→唤起一个局部锚点→带出附近的细节→沿着有意义的关系延展→重建一个更大的情景→形成新的解读。
人类几乎所有的「灵光一闪」,都是这么发生的。
而今天的AI Agent,几乎没有一个真的会这件事。
搜索≠联想
市面上绝大多数叫「AI记忆」的东西,做的其实都是搜索。
• 搜索问的是:「存起来的文本里,哪段跟我这个query最像?」
• 联想问的是:「从这个线索出发,该有哪些上下文被重新激活?」
这根本不是同一件事。
• 搜索给你最相似的片段;联想给你最该被想起来的那个情景。
• 搜索是「从库里捞」;联想是「顺着关系走」。
• 搜索告诉你「上次说过什么」;联想让你意识到——「这事跟那事,其实是一回事」。
一个只会搜的Agent,永远只能回答「你问的那句话出现在哪条历史记录里」。
而一个会联想的Agent,能从你此刻随口的一句话,拼出整个上下文,甚至帮你看见你自己还没看见的那条线。
M-Flow实现的是全新的记忆维度
它不把记忆看成一堆平铺的文本,而是看成一个有结构的关联空间。
查询进来后,先激活细粒度线索,再沿着关系往外扩展,最后恢复出这个线索原本属于的更大情境。
为什么「联想」这件事,比Benchmark更重要。
Benchmark重要——它测的是一个记忆系统能不能把该记的记回来。
但benchmark测的,始终是「系统能力」。
真正更有意思的问题是——
记忆,能不能托起「智能层」的行为?
• 一个更准的记忆引擎,让Agent「找回来得更对」。
• 一个会联想的记忆引擎,让Agent重新连接上下文、暴露潜在关系、获得更深入的理解。
这两件事,完全不在一个维度上。
「记忆准确度」是一种能力指标。
「联想与灵感」是一种智能特质。
换句话说,记忆引擎的本质不是让AI「记得更多」,是让AI「回答的更好」。
记忆引擎
正在成为Agent的下一个必争之地
过去两年,AI圈的焦点一直在「模型」上——参数更大、推理更强、能力更通用。
但进入2025、2026,一个新的共识正在形成——
光靠一次性把context塞进去的Agent,走不远。
真正能让Agent「长出稳定人格」、「跨任务协作」、「在时间维度上真正陪伴用户的」,不是更长的context window,而是一个独立的、可沉淀的记忆层。
于是过去这一年,整条赛道全线加速:
Mem0刚拿下2400万美金A轮;
Letta、Zep、Cognee、Supermemory接连完成早期融资;
Graphiti在Graph-RAG方向持续迭代;
连Pinecone这种老牌向量数据库,都在往「记忆服务」上贴。
但细看这个赛道,你会发现一个有点尴尬的事实——底层路线高度趋同。
要么是向量检索+摘要;
要么是浅层知识图谱+BM25回退;
要么是「更精细的RAG」。
归根结底,所有人都还在「搜索」这个老范式里打转。
而M-Flow,几乎是整个赛道里,唯一一个把「联想」当作第一性问题来做的。
它赌的不是「搜得更准」,是——想得更对。
Agent的下半场,不是谁的模型更大,而是谁的Agent更像人。
而像人,最关键的一步,不是「记得多」,而是——会联想。
M-Flow现在还小,海外社区几百条讨论——在整个AI赛道里,它还只是个刚刚走起来的新人。
但它前进的方向,是对的。
体验链接:
https://github.com/FlowElement-ai/m_flow
m-flow.ai
flowelement.ai
热门跟贴