心识周刊 | LRMs 内心知道何时停止思考、记忆增强框架 EMPO² 促进智能体探索……|宇宙|心识周刊|推理|新论文|智能体

本周主要内容：释放高效推理的采样范式 SAGE、AgentOS、探索型记忆增强的在线与离线策略优化框架、面向技能感知的编排框架 SkillOrchestra、意识混乱状态的恢复进程、非寻常意识状态的神经现象学、自我监测的大脑基础、视觉感知的节律采样

AGI 每周速递

[1] 推理模型是否隐式知道何时停止思考？

标题：Does Your Reasoning Model Implicitly Know When to Stop Thinking?

链接：https://arxiv.org/abs/2602.08354

作者：Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang, Zhixia Zhang, Hongyan Xie, Songshi Liang, Zehao Chen, Xuefeng Xiao, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang

单位：北航、字节

摘要：

近年来，大型推理模型（LRMs）的发展显著提升了其在复杂推理任务上的能力，这主要得益于思维链（CoTs）的引入。然而，这种方法往往导致大量冗余推理过程，降低计算效率，并在实时应用中造成显著延迟。近期研究表明，更长的推理链条通常与正确性并无显著相关，甚至可能对准确率产生负面影响。在对这一现象进行更为深入的分析过程中，本文出人意料地发现并通过实证加以验证：LRMs 实际上隐含地「知道」何时应当停止思考，只是这一能力被当前的采样范式所掩盖。基于这一发现，研究提出了 SAGE（Self-Aware Guided Efficient Reasoning，自我认知引导的高效推理）这一全新的采样范式，用以释放模型内在的高效推理潜能。此外，将 SAGE 作为混合采样机制整合进基于群体的强化学习框架（SAGE-RL）后，SAGE-RL 能够将 SAGE 所发现的高效推理模式有效融入标准的 pass@1 推理流程，在多个具有挑战性的数学基准测试中显著提升了 LRMs 的推理准确率与计算效率。

[2] 构建 AgentOS：从 Token 处理到系统级智能的涌现机制

标题：Architecting AgentOS: From Token-Level Context to Emergent System-Level Intelligence

链接：https://arxiv.org/abs/2602.20934

作者：ChengYou Li, XiaoDong Liu, XiangBao Meng, XinYu Zhao

单位：Yishu Research、福冈工业大学、新加坡国立大学

摘要：

大型语言模型（LLMs）的范式正经历一场根本性转变：从静态推理引擎迈向动态、自主的认知系统。尽管当前研究主要聚焦于扩展上下文窗口或优化提示工程，但微观层面的 token 处理与宏观层面的系统性智能之间的理论桥梁仍然支离破碎。本文提出 AgentOS——一种整体性的概念框架，将 LLM 重新定义为由结构化操作系统逻辑所支配的「推理内核」。该架构的核心在于深度上下文管理（Deep Context Management），其将上下文窗口概念化为可寻址的语义空间，而非被动缓冲区。文章系统性地解构了从离散序列到连贯认知状态的转变过程，引入语义切片（Semantic Slicing）与时间对齐（Temporal Alignment）机制，以缓解多智能体编排中的认知漂移。通过将经典操作系统抽象——如内存分页、中断处理与进程调度——映射至 LLM 原生构造，该框架为构建具备韧性、可扩展性与自我演化能力的认知环境提供了一条严谨的发展路线。分析指出，通用人工智能（AGI）发展的下一个前沿在于系统级协调的架构效率。

[3] 探索型记忆增强 LLM 智能体的混合策略优化方法

标题：Exploratory Memory-Augmented LLM Agent via Hybrid On- and Off-Policy Optimization

链接：https://arxiv.org/abs/2602.23008

作者：Zeyuan Liu, Jeonghye Kim, Xufang Luo, Dongsheng Li, Yuqing Yang

单位：微软研究院、韩国科学技术院

摘要：

探索仍然是采用强化学习训练的大型语言模型智能体的关键瓶颈。尽管既有方法能够利用预训练知识，但在需要发现新颖状态的环境中往往表现不佳。为此，研究提出了探索型记忆增强的在线与离线策略优化框架（Exploratory Memory-Augmented On- and Off-Policy Optimization，EMPO²），这是一种混合式强化学习框架，通过利用记忆机制促进探索，并结合在线与离线策略更新，使大型语言模型在具备记忆时表现优异，同时在缺乏记忆的情况下仍能保持稳健性。在 ScienceWorld 和 WebShop 两个基准环境上，EMPO² 相较于 GRPO 分别实现了 128.6% 和 11.3% 的性能提升。此外，在分布外测试中，EMPO² 展现出更强的任务适应能力，仅需少量带有记忆的试验而无需进行参数更新。上述结果表明，EMPO² 是构建更具探索能力与泛化性能的大型语言模型智能体的一个具有前景的框架。

[4] SkillOrchestra：基于技能迁移的智能体路由学习框架

标题：SkillOrchestra: Learning to Route Agents via Skill Transfer

链接：https://arxiv.org/abs/2602.19672

作者：Jiayu Wang, Yifei Ming, Zixuan Ke, Shafiq Joty, Aws Albarghouthi, Frederic Sala

单位：威斯康星大学麦迪逊分校、Salesforce AI Research

摘要：

复合型人工智能系统有望实现超越单一模型的能力，但其成功在很大程度上取决于高效的编排机制。现有路由方法面临两项主要局限：（1）输入层级的路由器仅在查询层面作出粗粒度决策，忽视了任务需求在交互过程中的动态演化；（2）基于强化学习训练的编排器适应成本高昂，且在多轮场景中常出现「路由坍缩」现象，即反复调用某一性能强但成本高的选项。为此，研究提出了 SkillOrchestra，一种面向技能感知的编排框架。该框架并非端到端直接学习路由策略，而是从执行经验中学习细粒度技能，并对各智能体在不同技能下的能力与成本进行建模。在实际部署阶段，编排器首先推断当前交互所需的技能需求，然后在显式的性能—成本权衡机制下，选择最能满足这些需求的智能体。在涵盖十个基准任务的广泛实验中，SkillOrchestra 相较于当前最先进的基于强化学习的编排方法，最高实现了 22.5% 的性能提升；同时，与 Router-R1 和 ToolOrchestra 相比，其学习成本分别降低了 700 倍和 300 倍。上述结果表明，显式的技能建模能够实现可扩展、可解释且具备样本效率的编排机制，为数据密集型强化学习方法提供了一种更具原则性的替代路径。代码可在以下链接获取：https://github.com/jiayuww/SkillOrchestra。

意识科学每周速递

[1] 宽频带脑电减慢表征创伤后意识混乱状态的恢复进程

标题：Unveiling clouded consciousness: Broad-band EEG slowing tracks recovery from post-traumatic confusional state

链接：https://www.sciencedirect.com/science/article/pii/S1053811926001011

作者：Michele Angelo Colombo, Chiara-Camilla Derchi, Tiziana Atzori, Elisabetta Litterio, Pietro Arcuri, Chiara Valota, Arturo Chieregato, Jorge Navarro, Marcello Massimini, Angela Comanducci

单位：米兰大学等

摘要：

创伤后意识混乱状态（PTCS）常见于严重创伤性脑损伤（TBI）后意识障碍（DoC）恢复阶段。其混乱症状涉及多个影响意识的功能领域，包括心理内容的获取与整合受损、知觉与情绪体验的扭曲、警觉性波动，以及记忆、定向力与执行控制能力的缺陷。尽管可通过混乱评估量表（CAP）对其临床表现进行系统表征，但其潜在的神经生理机制仍未得到充分阐明。值得注意的是，在多种意识改变状态中，脑电图（EEG）周期性与非周期性活动的整体减慢是一项一致性发现。

本研究评估了从 PTCS 恢复过程中是否伴随脑电减慢现象的再正常化。研究在入院时（T0）对亚急性期重度 TBI 患者进行静息态 EEG 记录，将存在 PTCS 的患者（N=22）与已脱离该状态的 TBI 对照组（N=19）进行比较。对 PTCS 患者进行基于 CAP 的纵向随访评估，并在康复后获取随访 EEG（T1），时间点为恢复时（N=19）或出院时（N=3）。

PTCS 的恢复伴随着频谱特征的部分正常化——以频谱指数与峰值频率为指标——其整体趋势趋近于 TBI 对照组的频谱特征。然而，以频谱偏移量与 δ 波功率为指标的功率水平仍存在边缘性升高，提示残余异常。频谱特征，尤其是频谱指数与频谱偏移量，与 CAP 评分显著相关，并能稳健地区分 PTCS 的存在（双变量模型 ROC AUC = 0.894）。研究结果表明，PTCS 以宽频带脑电减慢为特征，影响周期性与非周期性活动。随时间推移所观察到的频谱重组为理解 PTCS 的恢复机制提供了重要线索，并可能为康复路径的制定提供依据。

[2] 自我诱导的先验幻象状态的神经现象学

标题：The neurophenomenology of a self-induced transcendental visionary state: A case study

链接：https://www.sciencedirect.com/science/article/pii/S1053811926001023

作者：Gabriel Della Bella, Agustina Velez Picatto, Dante Sebastián Galván Rial, Sebastián Cukier, Gustavo Foa Torres, Magaly Catanzariti, Diego Mateos, Pedro Lamberti, Etzel Cardeña, Pablo Barttfeld

单位：阿根廷国立科尔多瓦大学等

摘要：

非寻常意识状态（non-ordinary states of consciousness, NOC）为探究在主观体验变化过程中大尺度脑动力学如何发生重组提供了一种重要路径。本研究考察了一名能够稳定、自主诱发 NOC 状态的参与者，该状态以生动的意象体验、身体感知改变以及统一感为特征。在共计 20 次功能性磁共振成像（fMRI）实验中，研究在基线期、过渡期、NOC 期与残留期四种条件下测量其功能连接模式，并与一组匹配对照者进行比较。结果显示，在过渡阶段，功能连接的变异性增加，提示网络组织出现暂时性不稳定；在 NOC 状态下，跨网络连接整体下降，其中视觉皮层与听觉、躯体运动、眶额皮层、丘脑及小脑区域的耦合减弱，躯体运动—背侧网络与听觉及语言皮层的连接减弱，这与被试报告的视觉现象与身体体验变化相一致。相对而言，额顶网络与显著性网络则增强了与楔前叶/后扣带皮层、多模态颞叶皮层及小脑枢纽区域的耦合程度，这与主观报告中持续的内向性注意与稳定的沉浸体验相符。熵与复杂度分析揭示出与体验进程序列相对应的系统性变化，并在残留阶段恢复至基线水平。该单案例研究整合了受控实验设计、自主诱发的 NOC 状态以及丰富的现象学资料，为神经现象学研究提供了有力基础，并表明将结构化实验范式与个体真实体验相结合，有助于深化对非寻常意识状态的理解。

[3] 探索自我监测的大脑基础

标题：Exploring the Brain Basis of Self-Monitoring

链接：https://www.sciencedirect.com/science/article/abs/pii/S0010945226000535

作者：Arianna Vecchio, Shira Cohen-Zimerman, Jordan Grafman

单位：芝加哥康复研究所、西北大学

摘要：

自我监控——即个体监测并调整自身行为以使之符合社会情境的能力——是人类社会功能的核心组成部分。近期研究揭示，左侧中央后回与顶叶皮层在社会认知行为中发挥重要作用，并指出创伤性脑损伤后自我监控能力以及相关执行与认知功能可能出现受损。为探究自我监控机制，研究分析了 99 名穿透性脑损伤个体及其亲属所报告的自我监控评分数据，并采用基于体素的病灶—症状映射（voxel-based lesion-symptom mapping）技术，识别与自评与他评差异相关的脑区。结果表明，与照护者的评价相比，退伍军人对自身自我监控能力的评估与其认知功能密切相关，并依赖于左侧中央后回、顶叶以及相关皮层下通路的完整性，这些结构支持个体在外部环境中对行动与目标导向行为进行可靠调节。该研究提供了因果性证据，表明自我觉察与认知功能是监测社会行为所必需的关键能力。

[4] 视觉感觉记忆中目标与干扰表征的节律采样与竞争

标题：Rhythmic sampling and competition of target and distractor representations in visual sensory memory

链接：https://academic.oup.com/cercor/article/36/2/bhag018/8496180

作者：Sean Noah, Sreenivasan Meyyappan, Mingzhou Ding, George R Mangun

单位：加州大学伯克利分校、加州大学戴维斯分校、佛罗里达大学

摘要：

近期研究表明，持续性的视觉注意具有节律性运作特征，仿佛视觉系统以周期性方式对环境中的刺激进行采样。本研究进一步提供证据表明，在视觉刺激消失后长达 1 秒内，目标与干扰项的内部表征仍以节律方式被采样。共有 20 名参与者完成了一项预期性、基于客体的视觉注意任务，任务中呈现一幅短时（50 毫秒）的目标物体图像，并叠加呈现一幅干扰物体图像以提高任务难度。研究对刺激诱发的脑电图（EEG）信号进行了解码分析，以测量在刺激阶段——包括视觉刺激消失后近 1,000 毫秒的时间窗口内——大脑活动中所表征的目标与干扰信息。结果发现，在视觉刺激消失之后，大脑活动中所表征的目标与干扰信息强度在 θ 频段（4–8 Hz）内呈现振荡变化。这一振荡周期与既往关于连续视觉呈现刺激中节律性注意采样的研究结果相一致。此外，目标与干扰在 θ 频段上的相位差越大，任务表现越佳。研究结果表明：（i）注意机制在感觉记忆中分别对目标与干扰表征进行采样；（ii）这两股分别采样的信息流之间可能存在相互抑制作用；（iii）当目标与干扰的采样节律不同步时，目标辨别能力得到提升。

Mindverse Research

心识研究院