大脑如何“规划”未来？我们可能一直把问题想窄了|大脑|新论文|算法

认知神经科学前沿文献分享

基本信息

Title:Planning in the Brain: It’s Not What You Think It Is

发表时间:2026.4.16

发表期刊:Annual Review of Neuroscience

获取原文:

1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本

引言

在大脑与决策研究里，“规划”长期有一个几乎不言自明的经典形象：个体面对选择时，像棋类程序那样沿着未来行动树向前推演，比较不同路径的后果，再决定下一步怎么做。这套思路深受人工智能早期树搜索算法影响，也与心理学中“世界模型”或“认知地图”的观念紧密相连：大脑先学到环境结构，再在决策时从当前状态出发做前向搜索。它确实解释了人和动物为何能在新情境中表现出灵活、目标导向的行为，但一个关键困难始终存在——真正的内部模拟过程往往是隐性的，仅靠行为结果很难判断它到底在何时发生、以何种形式发生。

Marcelo G. Mattar 和 Nathaniel D. Daw 在这篇综述中正是从这里切入，重新审视“规划”这一概念本身。作者认为，把规划主要理解为“做决定时的在线前向搜索”过于狭窄，甚至可能只是更一般机制中的一个不具代表性的特殊案例。更合适的表述是：凡是能够借助心理模拟来支持学习、从而改善未来行为的计算过程，都可以纳入规划的范围。这样一来，规划的关键就不再只是在选择当下“往前搜几步”，而是包括在决策之前、乃至决策之外，通过模拟经验完成预计算、更新价值表征、塑造策略选择等过程。

实验设计与方法逻辑

文章的组织逻辑很明确：先回顾经典规划观，即基于世界模型在决策时进行前向搜索；再结合人工智能中的预计算、缓存、Dyna 架构与蒸馏思路，强调模拟经验更重要的用途往往是支持学习，而非仅服务当下选择。随后，作者围绕 Figure 1 提出的四种视角展开论证：在线前向搜索、离线模拟驱动的预规划、借助时间抽象表征实现的“少搜索或无搜索”规划，以及由元学习塑形的任务特异性规划策略。全文因此不是在比较互斥模型，而是在重构“规划”这一概念的边界。

核心发现

发现一：作者将“规划”从决策时的前向搜索，扩展为由心理模拟支持学习的一类更广义计算

全文最核心的贡献，是对“规划”定义本身的改写。Figure 1a–d 以同一迷宫场景并列展示四种机制：Figure 1a 代表经典在线前向搜索，但 Figure 1b–d 进一步加入离线预规划、无需迭代搜索的时间抽象表征以及元学习。这个总图之所以重要，不是因为它提供了新数据，而是因为它明确表明：作者并不把前向搜索当作规划的标准模板，而是把它视为众多实现方式中的一种。结合摘要与引言可见，作者真正想强调的是，心理模拟的主要价值常常体现在“提前学会如何更好决策”，而不是只在选择时临场展开推演。

Figure 1 Four views of planning in the brain.

发现二：海马回放常常更像离线预计算与学习，而非直接控制当下选择

围绕回放的讨论，是全文最直接的神经证据链。Figure 1b 概括了作者的关键主张：模拟轨迹可以在决策尚未到来之前生成，并通过训练下游价值表征来影响后续行为。文中回顾的人类功能磁共振成像、脑磁图以及啮齿类研究都显示，相关再激活不仅会在选择时出现，也常在奖励刚被引入时、安静休息期、停顿期甚至睡眠中出现；其内容还能预测之后的灵活选择表现。作者尤其强调，后向回放更容易解释为信用分配，而非即刻前视搜索；同时，啮齿类的长程回放常发生在静止时，而不是动物真正移动、最需要即时选择之际。

发现三：后继表征与网格细胞相关编码提示，大脑可以在不逐步搜索的情况下实现灵活评估

Figure 1c 是全文“规划不等于树搜索”的另一条关键证据。作者指出，后继表征会把某一状态之后可能遇到的未来状态进行聚合，因此当目标价值变化时，系统可通过一次加权读出完成重新评估，而不必每次都沿状态树逐步展开。这种时间抽象机制保留了相当程度的灵活性，却显著降低了在线计算负担。文中进一步讨论，内嗅皮层的网格细胞可被视为支持这类长程预测的表征基础，其群体活动近似于一组能够表达长期动态关系的基函数，使规划更像读取预测地图，而不只是反复模拟一步转移。

发现四：前额叶元学习可能塑造大脑何时规划、如何规划以及调用哪种模拟策略

如果说前两部分讨论的是规划的实现材料，Figure 1d 讨论的则是规划机制本身如何被学习出来。作者在“Meta-learning: Learning How to Plan”一节提出，规划并不是一个跨任务固定不变的通用算法，而会在反复任务经历中被经验持续塑形。按照这一视角，前额叶皮层的持续性、循环性动态可能承担类似“内环算法”的功能，而跨情境的学习则通过较慢的塑性过程来优化这种动态，使其更适配特定任务结构。

归纳总结和点评

这篇综述最有分量的地方，在于它不是单纯为经典“模型式决策”框架补充新现象，而是重新设置了“规划”这一研究问题：大脑中的规划更像是一组利用心理模拟来进行学习、预计算与策略塑形的过程，前向搜索只是其中一种情形。沿着这一框架，海马回放、后继表征、网格细胞相关编码以及前额叶动态不再是彼此割裂的线索，而被放进同一理论坐标中理解，为“灵活行为究竟如何在神经系统中实现”提供了更统一的叙述。同时，作者也保持了必要克制：不同机制未必能被单一理论完全统一，不同物种、任务与测量手段之间的映射关系仍待厘清，而依赖预计算与缓存的方案虽然高效，也会在环境变化时面临失效风险。正因为没有把框架写成终局答案，这篇文章的价值反而更清楚——它真正推动的是我们看待规划的方式。