TiCS | 大脑如何用“闭环”学会做更聪明的决定：眶额皮层 × 感觉皮层|tics|信号|大脑|感受器|感觉皮层|眶额皮层|纹状体

PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier

一键关注，点亮星标 ⭐️

不错过每日前沿资讯

认知神经科学前沿文献分享

基本信息：

Title:Orbitofrontal-sensory cortical interactions in learning and adaptive decision-making

发表时间：2025.12.4

Journal:Trends in Cognitive Sciences（TiCS）

影响因子：17.2

获取原文：

添加小助手:PSY-Brain-Frontier即可获取PDF版本

引言

每天早上换一家咖啡店，哪一杯更香、更顺口，会悄悄决定你明天往哪家走——这就是强化学习（reinforcement learning, RL）在生活中的表现。然而，做出“下次去哪儿买”的决定，不只是简单记住味道这么粗糙。大脑需要把气味、口感、杯型、价格、情绪、品牌这些杂乱信息，整合成一个“值不值得再去”的主观价值，还要在环境变了（比如咖啡突然变难喝）时迅速翻盘。

传统观点认为，感觉皮层只是负责“看清、闻清、尝清”，眶额皮层（orbitofrontal cortex, OFC）负责“算账和决策”。但新证据提示，感觉皮层本身也会编码注意（attention）、工作记忆（working memory）、不确定性（perceptual uncertainty）甚至价值相关信息，而 OFC 又通过反馈信号改写感觉皮层的表征。两者更像一个不断互相教学的闭环系统，而不是简单的“前端采集 + 后端决策”。

这篇 TiCS 综述文章以计算强化学习框架为主线，系统梳理了 OFC 与五大感觉系统（视觉、听觉、躯体感觉、嗅觉、味觉）之间的双向连接：

感觉皮层把压缩后的任务信息送给 OFC，帮助构建抽象的任务状态与“认知地图”（cognitive map）；OFC 再把基于价值与任务结构的“教学信号”回送感觉皮层，放大有用特征、重映射价值，让感觉皮层从“被动感受器”升级为“带认知功能的前端模块”。

这不仅改写了我们对感觉皮层的认识，也为理解人脑如何高效学习，以及如何设计更聪明的人工神经网络，提供了新思路。

实验设计与方法逻辑

本文并非单一实验，而是整合解剖追踪、动物电生理、人类 fMRI 以及深度 / 元强化学习（deep/meta-RL）模型等多类证据：

作者先从解剖结构出发，明确 OFC 与各感觉皮层的互惠投射；随后分别梳理自下而上的“感觉→OFC”通路如何提供注意、工作记忆与不确定性信息，自上而下的“OFC→感觉”通路如何实现感知增强与价值重映射；最后在强化学习的计算框架中，把这些结果统一成一个闭环模型，解释大脑如何边感知边学习、边更新任务结构。

核心发现

解剖上：OFC 是连接五大感觉通路的“价值枢纽”

图 1 展示了人类大脑外侧视图中，OFC 与躯体感觉、嗅觉、味觉、视觉和听觉皮层的广泛双向连接：后部 OFC 接收更多来自初级感觉皮层的输入，前部 OFC 更多连接联络区，尤其是与物体 / 面孔识别相关的腹侧视觉通路。这种“从外周到高级”的多级输入，使 OFC 得以整合多模态信息（比如咖啡的味道 + 香气 + 触感），计算跨模态的主观价值，并向下游（如纹状体、海马）输出价值与任务状态信息，从而在解剖上奠定其“价值枢纽”的地位。

Figure 1. Major anatomical connections between sensory cortices and the orbitofrontal cortex (OFC).

感觉→OFC：不仅传“是什么”，还传注意、记忆和不确定性

图 2A 用示意流程总结了感觉皮层送往 OFC 的多条信息流：除传统的感觉特征外，还有自下而上的显著性 / 注意信号（bottom-up attention）、感觉工作记忆表征以及对当前刺激的感知不确定性。这些“预处理后”的高级信号，帮助 OFC更精准地进行奖励预测、价值比较与责任归因（credit assignment）：突出的刺激优先被评估，可维持在感觉工作记忆中的特征更易被正确“记账”，高不确定性则会压低价值信号、推动探索。

Figure 2. Contribution of sensory inputs to value computation and representation learning in the orbitofrontal cortex (OFC).

OFC→感觉：用价值信号直接“调参”感觉皮层

在图 3A 的咖啡例子中，一次令人愉快的体验，会让 OFC 向感觉皮层发送奖励期望与目标导向注意两类自上而下信号：前者提升对与奖励相关特征的响应增益，后者选择性放大与当前目标有关的刺激、抑制无关输入。动物实验进一步显示，OFC 投射到 V1、A1 或嗅皮层时，可以分别抑制无奖刺激、放大奖励相关刺激的神经反应，实现对感觉编码的“价值调谐”；在人类 fMRI 中，则可观察到在反转学习阶段，OFC 与奖相关 S1 区域的功能连接瞬时增强，提示其通过“教学信号”重写感觉-奖励映射。

Figure 3. The orbitofrontal cortex (OFC)–sensory cortex interactions supporting reinforcement-based adaptive learning.

闭环 RL 模型：OFC–感觉皮层协同构建

“任务认知地图”

图 2B 和 3B 合在一起给出一个闭环强化学习框架：感觉皮层将压缩后的任务相关特征（包括不确定性、显著性与近期刺激记忆）送入 OFC，OFC 将其与海马、内嗅皮层等处存储的既往任务状态进行比较——若相似，则更新旧状态；若不同，则创建新状态并附带“探索”加成。这些任务状态构成抽象的认知地图，驱动对未来结果的预测，再通过价值期望与重映射信号回传感觉皮层，持续调整前端表征，实现在不确定、可变环境中的高效学习与灵活决策。