上下文窗口再长也有填不满的焦虑。128k甚至100万token的模型看似宽裕,但把整个工作流的历史记录、工具输出和指令全塞进去,成本直线上升,检索质量反而下滑。多智能体架构的解法很直接:每个专家只拿自己需要的那部分上下文,既省钱又精准。
这是LangGraph团队提出的核心观察。他们认为单智能体架构撞上天花板,通常来自三个硬约束。
打开网易新闻 查看精彩图片
第一是刚才说的上下文限制。成本随上下文长度线性增长,而检索效果随长度衰减,这个矛盾没法靠堆token解决。第二是专业化需求。一个通用智能体被提示"先研究、再起草、再批判、再执行",表现不如拆成四个专岗。第三是协调复杂度。当任务需要并行处理、条件分支或人机协作时,单智能体的线性执行模式天然吃力。
打开网易新闻 查看精彩图片
多智能体不是简单的"多开几个GPT",而是需要解决记忆共享和任务编排两个底层问题。LangGraph的做法是把工作流显式建模为图结构:节点是智能体或工具,边是状态流转。这样每个智能体的记忆可以按需订阅,而非全量广播。
编排层面,他们区分了三种模式。顺序链适合流水线任务,一个节点的输出是下一个的输入;并行扇出用于批量处理,多个智能体同时跑不同子任务;条件路由则根据中间结果动态决定下一步走哪条分支。这三种模式覆盖了大多数真实场景。
打开网易新闻 查看精彩图片
记忆管理是多智能体的暗礁。LangGraph把状态分为三类:短期工作记忆(当前任务上下文)、长期用户记忆(跨会话的偏好和历史)、以及共享知识库(文档、代码库等外部数据)。不同智能体对这三类记忆的访问权限可以精细配置,避免信息过载或泄露。
这套设计指向一个趋势:AI应用正在从"一个聪明的助手"转向"一支配合默契的团队"。拆得越细,每个环节的可靠性越高,但协调成本也随之上升。找到这个平衡点,是接下来半年工程团队的主战场。
热门跟贴