LLM 推理的动态短板能靠世界模型能补上吗？|推理|新论文|显式|知识库|轨迹

来源：机器之心

本文来自PRO会员通讯内容，文末关注「机器之心PRO会员」，查看更多专题解读。

过往大模型推理优化主要围绕语言推理链的结构化与搜索增强展开。但在网页交互、工具调用等动态任务中，推理对象已从静态文本转向随动作变化的环境状态，问题本质从语言生成扩展为环境中的决策。现有 CoT、ToT 等方法仍主要在文本空间内优化推理路径，并未对环境状态转移进行显式建模。世界模型的引入正是为了弥补这一缺口，通过建模动作与状态变化的映射关系，为 LLM-based Agent 提供环境预测能力，以支撑更稳定的决策过程。

01. 从局部自动化到全供应链质变，AI 如何重构传统的劳动力与资本份额？

AGI 时代的稀缺性到底会如何重塑全球经济的底层逻辑？全供应链自动化为什么会让传统的劳动力与资本分配模型失效？ ...

02. 迈向全自动化的过渡期，人类为何终将被机器经济排斥？

人类劳动的最后一道稀缺性防线「关系型部门」真的能守住吗？「混乱的中间地带」会给社会带来哪些难以预料的政治经济学危机？ ...

03. 边缘经济体如何避免被算力供应链淘汰？

AGI 创造的巨额财富该如何进行公平且可持续的社会再分配？为什么具有极高财富积累偏好的实体会主导未来的全球资本格局？ ...

世界模型如何帮助 Agent 解锁动态交互能力？

1、近年来，当 LLM 落地应用在网页操作、工具调用、代码运行、长时序任务规划等动态 Agent 场景时，推理不再局限于文本生成，而是延伸至行为决策领域。然而，模型在静态基准测试中的优异表现，与其在真实动态交互环境中的推理效果之间存在明显差距。

① 网页导航、代码编辑、工具使用和长周期对话等场景均属于动态环境，其状态随动作持续演化，要求模型具备前瞻预测能力，且单步误差可能沿决策链逐级累积。静态环境则通常不存在状态变化与误差传递。[1]

② 静态评估忽略推理过程中的中断与环境变化，会系统性高估模型在动态任务中保持推理正确性与完成任务能力的表现。在数学推理与代码生成任务中，引入中断或上下文变化后，模型性能最高下降可达 60%。[2]

2、围绕提升 LLM-based Agent 推理能力的目标，业界陆续提出 CoT、Self-Consistency、ToT、LATS 等优化方法，从不同角度强化模型表现。但这些方法并未触及核心问题。但这些优化本质上仍在文本空间内改进推理路径，并未赋予模型预判动作后果的能力，因而无法真正解决动态环境中的推理短板。

① CoT 的单向线性推理存在结构性局限，其输出的链式推理文本并不能完整还原真实的内在决策过程。研究者进一步发现，CoT 及其推理变体在不同模型规模和基准复杂度下持续不如直接回答。[3][4]

② ToT 和 LATS 的改进仍局限于文本空间内的路径优化，并未对环境转移进行显式建模。面对网页提交、代码发布、API 调用这类不可逆操作，依赖此类方法的 LLM-based Agent 在实际部署中的效果有限。[5]

3、近期，EvoAgent、WebEvolver、COMAP、RWML、ProPlay 等工作尝试通过「世界模型」赋予模型预测状态转移的能力，尝试缓解动态环境中因不可逆操作与状态追踪困难导致的决策失效问题。

① 世界模型与前述推理优化方法的差异在于世界模型的建模对象是环境状态转移本身，使 LLM-based Agent 在执行动作前即具备对后果的预判能力。[6][7][8]

② EvoAgent 提出持续世界模型，使智能体在开放世界中通过自规划与自反思完成长时程任务，无需人工干预。在 Minecraft 和 Atari 上，该方法相较现有方法平均成功率提升 105%，无效动作减少 6 倍以上。[6]

③ WebEvolver 将协同进化的世界模型引入 Web Agent 框架，在推理阶段通过前瞻模拟指导动作选择。在 Mind2Web-Live、WebVoyager 等真实网页环境中，该方法相较现有自进化 Agent 取得了 10% 的性能提升。[7]

④ COMAP 通过闭环交互让文本世界模型与 Agent 策略协同进化。世界模型预测候选动作的未来状态，Agent 据此优化动作，生成的轨迹再通过自蒸馏更新世界模型。在具身任务规划、Web 导航和工具使用基准上，COMAP 在 Qwen3-4B 上实现了 16.75% 的相对提升。[8]

⑤ RWML 通过 sim-to-real gap 奖励在文本状态上学习动作条件世界模型，将模拟的下一状态与真实观测对齐。在 ALFWorld 和 τ² Bench 上，RWML 结合任务成功奖励后分别比直接使用任务成功奖励的 RL 高出 6.9 和 5.7 个点。[9]

⑥ ProPlay 提出程序性世界模型，将成功轨迹抽象为程序并在程序图中组织，支持 Agent 在执行前预演未来的程序路径。实验表明该方法在环境理解与自进化能力上持续优于强基线。[10]

4、业界围绕世界模型的讨论重点集中于，动态交互任务要求模型同时具备状态理解、结果预测和长期规划能力。世界模型能够为 LLM-based Agent 补上「执行前预判后果」与「脱离真实环境进行策略学习」的能力，有希望从根本上解决动态环境中因状态追踪困难与动作后果不可逆导致的决策失效问题。[1]

① 在推理阶段，世界模型能够根据候选动作预测后续状态变化，并利用预测结果对动作进行验证和筛选。WebEvolver 在推理阶段引入预测机制，在真实网页环境中较现有自进化 Agent 取得了 10% 的性能提升。[7]

② 在训练阶段，世界模型可作为虚拟环境生成交互轨迹或模拟用户反馈，降低训练过程对真实环境的依赖；可进一步引入动态更新机制，使世界模型与智能体策略协同优化，以缓解环境分布变化带来的影响。[8][9]

世界模型如何优化 AI 的环境推理能力？

1、传统 LLM-based Agent 采用反应式架构，缺乏对环境如何结构化演化与变化的显式建模，因而在网页导航、代码编辑、长周期对话等动态交互任务中表现受限。近期用世界模型改善推理能力的探索分别从训练、推理、评估等维度切入，通过赋予模型预测动作之后环境状态如何变化的能力，实现更优的动态任务适应能力...

阅读最新前沿科技趋势报告，请访问21世纪关键技术研究院的“未来知识库”

未来知识库是 “21世纪关键技术研究院”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到2月28日 ”未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）