认知神经科学前沿文献分享
基本信息
Title:Planning in the Brain: It’s Not What You Think It Is
发表时间:2026.4.16
发表期刊:Annual Review of Neuroscience
获取原文:
1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本
引言
在大脑与决策研究里,“规划”长期有一个几乎不言自明的经典形象:个体面对选择时,像棋类程序那样沿着未来行动树向前推演,比较不同路径的后果,再决定下一步怎么做。这套思路深受人工智能早期树搜索算法影响,也与心理学中“世界模型”或“认知地图”的观念紧密相连:大脑先学到环境结构,再在决策时从当前状态出发做前向搜索。它确实解释了人和动物为何能在新情境中表现出灵活、目标导向的行为,但一个关键困难始终存在——真正的内部模拟过程往往是隐性的,仅靠行为结果很难判断它到底在何时发生、以何种形式发生。
Marcelo G. Mattar 和 Nathaniel D. Daw 在这篇综述中正是从这里切入,重新审视“规划”这一概念本身。作者认为,把规划主要理解为“做决定时的在线前向搜索”过于狭窄,甚至可能只是更一般机制中的一个不具代表性的特殊案例。更合适的表述是:凡是能够借助心理模拟来支持学习、从而改善未来行为的计算过程,都可以纳入规划的范围。这样一来,规划的关键就不再只是在选择当下“往前搜几步”,而是包括在决策之前、乃至决策之外,通过模拟经验完成预计算、更新价值表征、塑造策略选择等过程。
实验设计与方法逻辑
文章的组织逻辑很明确:先回顾经典规划观,即基于世界模型在决策时进行前向搜索;再结合人工智能中的预计算、缓存、Dyna 架构与蒸馏思路,强调模拟经验更重要的用途往往是支持学习,而非仅服务当下选择。随后,作者围绕 Figure 1 提出的四种视角展开论证:在线前向搜索、离线模拟驱动的预规划、借助时间抽象表征实现的“少搜索或无搜索”规划,以及由元学习塑形的任务特异性规划策略。全文因此不是在比较互斥模型,而是在重构“规划”这一概念的边界。
核心发现
发现一:作者将“规划”从决策时的前向搜索,扩展为由心理模拟支持学习的一类更广义计算
全文最核心的贡献,是对“规划”定义本身的改写。Figure 1a–d 以同一迷宫场景并列展示四种机制:Figure 1a 代表经典在线前向搜索,但 Figure 1b–d 进一步加入离线预规划、无需迭代搜索的时间抽象表征以及元学习。这个总图之所以重要,不是因为它提供了新数据,而是因为它明确表明:作者并不把前向搜索当作规划的标准模板,而是把它视为众多实现方式中的一种。结合摘要与引言可见,作者真正想强调的是,心理模拟的主要价值常常体现在“提前学会如何更好决策”,而不是只在选择时临场展开推演。
Figure 1 Four views of planning in the brain.
发现二:海马回放常常更像离线预计算与学习,而非直接控制当下选择
围绕回放的讨论,是全文最直接的神经证据链。Figure 1b 概括了作者的关键主张:模拟轨迹可以在决策尚未到来之前生成,并通过训练下游价值表征来影响后续行为。文中回顾的人类功能磁共振成像、脑磁图以及啮齿类研究都显示,相关再激活不仅会在选择时出现,也常在奖励刚被引入时、安静休息期、停顿期甚至睡眠中出现;其内容还能预测之后的灵活选择表现。作者尤其强调,后向回放更容易解释为信用分配,而非即刻前视搜索;同时,啮齿类的长程回放常发生在静止时,而不是动物真正移动、最需要即时选择之际。
发现三:后继表征与网格细胞相关编码提示,大脑可以在不逐步搜索的情况下实现灵活评估
Figure 1c 是全文“规划不等于树搜索”的另一条关键证据。作者指出,后继表征会把某一状态之后可能遇到的未来状态进行聚合,因此当目标价值变化时,系统可通过一次加权读出完成重新评估,而不必每次都沿状态树逐步展开。这种时间抽象机制保留了相当程度的灵活性,却显著降低了在线计算负担。文中进一步讨论,内嗅皮层的网格细胞可被视为支持这类长程预测的表征基础,其群体活动近似于一组能够表达长期动态关系的基函数,使规划更像读取预测地图,而不只是反复模拟一步转移。
发现四:前额叶元学习可能塑造大脑何时规划、如何规划以及调用哪种模拟策略
如果说前两部分讨论的是规划的实现材料,Figure 1d 讨论的则是规划机制本身如何被学习出来。作者在“Meta-learning: Learning How to Plan”一节提出,规划并不是一个跨任务固定不变的通用算法,而会在反复任务经历中被经验持续塑形。按照这一视角,前额叶皮层的持续性、循环性动态可能承担类似“内环算法”的功能,而跨情境的学习则通过较慢的塑性过程来优化这种动态,使其更适配特定任务结构。
归纳总结和点评
这篇综述最有分量的地方,在于它不是单纯为经典“模型式决策”框架补充新现象,而是重新设置了“规划”这一研究问题:大脑中的规划更像是一组利用心理模拟来进行学习、预计算与策略塑形的过程,前向搜索只是其中一种情形。沿着这一框架,海马回放、后继表征、网格细胞相关编码以及前额叶动态不再是彼此割裂的线索,而被放进同一理论坐标中理解,为“灵活行为究竟如何在神经系统中实现”提供了更统一的叙述。同时,作者也保持了必要克制:不同机制未必能被单一理论完全统一,不同物种、任务与测量手段之间的映射关系仍待厘清,而依赖预计算与缓存的方案虽然高效,也会在环境变化时面临失效风险。正因为没有把框架写成终局答案,这篇文章的价值反而更清楚——它真正推动的是我们看待规划的方式。
请打分
这篇刚刚登上 Annual Review of Neuroscience 的研究,是否实至名归?我们邀请您作为“云审稿人”,一同品鉴。精读全文后,欢迎在匿名投票中打分,并在评论区分享您的深度见解。
分享人:BQ
审核:PsyBrain 脑心前沿编辑部
你好,这里是「PsyBrain 脑心前沿」
专注追踪全球认知神经科学的最尖端突破
视野直击 Nature, Science, Cell 正刊 及核心子刊与顶级大刊
每日速递「深度解读」与「前沿快讯」
科研是一场探索未知的长跑,但你无需独行。欢迎加入PsyBrain 学术社群,和一群懂你的同行,共同丈量脑与心智的无垠前沿。
点击卡片进群,欢迎你的到来
一键关注,点亮星标 ⭐ 前沿不走丢!
一键分享,让更多人了解前沿
热门跟贴