█ 脑科学动态
Nature:显著性、好坏与重要性:大脑决策的三条独立线程
大脑通过“几何扭转”将感觉转化为知觉
增加日间光照能显著提升认知反应速度
小脑竟是精神分裂症冷漠症状的“开关”
治疗抑郁症新靶点:裸盖菇素的非致幻性神经受体
尾状核:大脑深处预测老年衰弱的关键区域
█ AI行业动态
AI写代码仅用10天:Anthropic新工具Cowork
追踪500位老人20年的万维数据现已公开
█ AI驱动科学
Nature系列综述:AI智能体重塑癌症研究与治疗
AI无法取代人类创造力:技能差异被放大而非抹平
机器人学会“直觉”抓握:高斯过程回归实现小数据大灵巧
你的聊天机器人在撒谎吗?新框架利用内部文档验证AI生成的答案
软技能至关重要:同理心是提升人机协作效率的关键
Yann LeCun团队新作:利用无标签视频训练通用世界模型
脑科学动态
Nature:显著性、好坏与重要性:大脑决策的三条独立线程
面对突如其来的警报声或诱人的食物,大脑如何在瞬间做出反应?Daniel Jercog及其团队(哥本哈根大学)联合国际研究人员,通过对小鼠的研究揭示了大脑处理复杂环境线索的机制。他们发现,大脑并非将所有信息混合处理,而是像计算机多线程一样,通过独立的神经通道分别评估刺激的不同属性,从而指导动物做出精准的行为决策。
▷ 用于评估显著性、效价和价值编码的行为框架和任务。Credit: Nature (2026).
为了解开这一谜题,研究团队利用钙成像技术,实时监测了自由活动小鼠在面对不同刺激时,大脑背内侧前额叶皮层的神经元活动。研究人员发现,外部刺激的三个关键特征被分别处理:“显著性”(salience,即刺激有多引人注目)、“效价”(valence,即刺激是积极还是消极的)以及“价值”(value,即刺激的重要性或激励程度)。实验数据显示,神经元群体会沿着正交的信息轴被激活,这意味着这三种信息是在相互独立的通道中并行传输的,互不干扰。这种机制确保了大脑能够高效地综合评估环境信息。研究人员指出,这一发现对于理解人类心理健康具有重要意义,因为焦虑症可能与高估威胁有关,而成瘾则涉及高估回报,抑郁症则可能源于对回报的低估。如果人类前额叶皮层也采用这种分离通道机制,将为治疗相关精神疾病提供更精准的靶点。研究发表在 Nature 上。
#疾病与健康 #跨学科整合 #再生医学 #嵌合体 #先天免疫
阅读更多:
Winke, Nanci, et al. “Prefrontal Neural Geometry of Learned Cues Guides Motivated Behaviours.” Nature, Jan. 2026, pp. 1–10. www.nature.com, https://doi.org/10.1038/s41586-025-09902-2
大脑通过“几何扭转”将感觉转化为知觉
我们看到的心理世界往往不同于纯粹的物理世界,大脑是如何填补这一鸿沟的?清华大学心理与认知科学系的刘嘉(Jia Liu)教授团队,包括马恒(Heng Ma)、蒋龙生(Longsheng Jiang)和刘韬(Tao Liu)等人,通过研究揭示了大脑将物理感觉转化为心理知觉的几何机制。他们发现,大脑通过一种独特的“扭转操作”,能够将物理上难以区分的信息重构为清晰的知觉体验,为理解人类认知和优化人工智能设计提供了新视角。
在这项研究中,团队利用运动诱发错觉轮廓(motion-induced illusory contours)构建了一个在物理空间中“线性不可分”的视觉任务。研究人员记录了猕猴次级视觉皮层(V2)的神经活动,发现神经群体的活动最初处于一个低维的“感觉流形”(sensory manifolds)中,直接反映物理刺激的特征,此时大脑尚无法区分不同的轮廓朝向。然而,随着神经计算的进行,这些神经状态经历了一系列复杂的几何变换——即“扭转操作”(Twist Operation),将表征空间从三维提升到了七维,形成了“知觉流形”(perceptual manifolds)。在这个高维空间中,原本纠缠不清的信息变得可以通过线性方式区分。进一步的人工神经网络模拟表明,神经元具有的非线性混合选择性(Nonlinear Mixed Selectivity)以及连接权重的高度异质性,是实现这一“维度升级”和复杂计算的关键。该研究不仅解释了知觉涌现的机制,也指出未来的AI网络设计需要模拟这种生物神经系统的异质性以提高鲁棒性。研究发表在 Science Advances 上。
#认知科学 #神经机制与脑功能解析 #计算模型与人工智能模拟 #知觉 #神经流形
阅读更多:
Ma, Heng, et al. “From Sensory to Perceptual Manifolds: The Twist of Neural Geometry.” Science Advances, vol. 11, no. 50, Dec. 2025, p. eadv0431. science.org (Atypon), https://doi.org/10.1126/sciadv.adv0431
增加日间光照能显著提升认知反应速度
日常光照究竟如何影响我们的大脑工作效率?曼彻斯特大学(University of Manchester)的Altug Didikoglu及其团队开展了一项开创性的“现实世界”研究。他们发现,在日常生活中增加白天的光照暴露,不仅能改善主观困倦感,还能显著提升认知能力的多个方面,包括注意力和反应速度。
该研究共有58名成年人参与,在为期七天的日常生活中,他们佩戴了特殊的手腕式光照监测器(Spectrawear)来记录环境光照对生物钟的影响,并通过一款名为Brightertime的智能手机应用程序进行认知测试。研究人员发现,与昏暗环境相比,参与者在明亮光线下的反应速度提高了7-10%,且在维持集中注意力方面表现更好。此外,一周内光照模式更稳定、白天光照更充足的参与者,其视觉搜索和工作记忆能力也更强。这种影响被认为与视网膜中含有黑视素的内在光敏视网膜神经节细胞(ipRGC)系统的激活有关,该系统负责调节昼夜节律和警觉性。研究还指出,相比习惯晚睡的人,就寝时间较早的人对光照更敏感——早晨的强光能更有效地唤醒他们,而夜晚的昏暗光线则更容易引发困意。研究发表在 Communications Psychology 上。
#认知科学 #健康管理与寿命延长 #光照 #昼夜节律
阅读更多:
Didikoglu, Altug, et al. “Relationships between Light Exposure and Aspects of Cognitive Function in Everyday Life.” Communications Psychology, vol. 4, no. 1, Dec. 2025, p. 5. www.nature.com, https://doi.org/10.1038/s44271-025-00373-9
小脑竟是精神分裂症冷漠症状的“开关”
精神分裂症患者常面临一种被称为“阴性症状”的困境,表现为极度冷漠、缺乏动力和社交退缩,这类症状往往比幻觉更难治疗。日内瓦大学(University of Geneva)的Indrit Bègue及其团队通过一项突破性研究,揭示了常被忽视的小脑在调节大脑奖赏系统及控制这些症状中的关键作用。
▷ 小脑与腹侧被盖区(VTA)连接示意图。Credit: Thomas Bolton
研究团队对146名参与者进行了长达9个月的纵向追踪,并结合独立验证队列,利用先进的共激活模式分析(Coactivation Pattern analysis,一种能够捕捉大脑区域间瞬时动态功能连接的数据驱动方法)对患者的脑部影像进行了深入研究。结果首次描述了小脑与腹侧被盖区(Ventral Tegmental Area,VTA,大脑深处负责产生多巴胺的关键奖赏中心)之间存在一种特定的“反向共激活”模式。简单来说,小脑对VTA的调节作用越强,患者的冷漠症状就越轻;反之,调节减弱则症状加重。这一发现意义重大,因为相比深埋大脑内部的VTA,小脑位于颅骨后部表面,极易通过经颅磁刺激进行干预。目前,基于该机制的随机对照临床试验已经展开,有望为治疗精神分裂症顽固的阴性症状开辟全新的非侵入性疗法。研究发表在 Biological Psychiatry 上。
#疾病与健康 #心理健康与精神疾病 #精神分裂症 #神经调控 #小脑功能
阅读更多:
Awada, Jade, et al. “A Longitudinal and Reproducible Anti-Coactivation Pattern Between the Cerebellum and the Ventral Tegmental Area Is Related to Apathy in Schizophrenia.” Biological Psychiatry, vol. 99, no. 2, Jan. 2026, pp. 124–33. www.biologicalpsychiatryjournal.com, https://doi.org/10.1016/j.biopsych.2025.06.009
治疗抑郁症新靶点:裸盖菇素的非致幻性神经受体
裸盖菇素虽能有效缓解抑郁,但其致幻副作用一直是临床普及的“拦路虎”。Sixtine Fleury和Katherine M. Nautiyal(达特茅斯学院)团队通过研究发现了一个关键的神经受体,它在不引起幻觉的情况下促进了裸盖菇素的治疗效果,为开发更安全的抗抑郁药物开辟了新路径。
▷ 裸盖菇素诱导的神经活动变化依赖于 5-HT1BR。Credit: Molecular Psychiatry (2025).
该研究利用基因工程小鼠模型,深入剖析了裸盖菇素在大脑中的作用机制。研究团队重点关注了血清素系统,特别是血清素1B受体(5-HT1B)。实验中,研究人员通过测量c-Fos(一种即刻早期基因,常作为神经元活动的标志物)的表达水平,绘制了全脑神经活动图谱。结果显示,虽然血清素2A受体(5-HT2A)是导致幻觉的主要原因,但5-HT1B受体对于裸盖菇素改善快感缺失和焦虑样行为至关重要。值得注意的是,在剔除5-HT1B受体的小鼠中,裸盖菇素不再产生预期的抗抑郁效果,但小鼠并未表现出头部抽搐反应(head twitch response,这是动物模型中衡量致幻效果的指标),这表明5-HT1B受体并不参与致幻过程。这一发现意味着,科学家有望设计出专门靶向5-HT1B受体的药物,在保留裸盖菇素疗效的同时,剔除其昂贵且具风险的致幻副作用。研究发表在 Molecular Psychiatry 上。
#疾病与健康 #心理健康与精神疾病 #抑郁症 #裸盖菇素 #5-HT1B受体
阅读更多:
Fleury, Sixtine, and Katherine M. Nautiyal. “The Serotonin 1B Receptor Is Required for Some of the Behavioral Effects of Psilocybin in Mice.” Molecular Psychiatry, Dec. 2025, pp. 1–13. www.nature.com, https://doi.org/10.1038/s41380-025-03387-1
尾状核:大脑深处预测老年衰弱的关键区域
握力不仅是肌肉力量的体现,更是衡量老年人身体机能和大脑健康的窗口。为了探究大脑如何影响身体衰弱,加州大学河滨分校的Xiaoping Hu教授和Amin Ghaffari博士团队利用先进的脑成像技术,发现大脑深处的尾状核(caudate nucleus)是预测握力的关键区域,这一发现为早期检测和预防老年衰弱提供了新的神经生物学依据。
研究团队招募了60名老年人,利用功能性磁共振成像(fMRI)在他们进行最大握力测试时实时记录大脑活动。为了精准解析大脑与身体机能的关系,研究人员采用了基于连接组的预测模型(CPM,一种利用全脑功能连接模式来预测个体行为特征的数据驱动方法),将每位参与者的握力数据与其大脑内部的通信网络图谱进行比对,并对数据进行了标准化以排除性别和肌肉量的干扰。结果显示,大脑网络活动与握力强弱存在显著相关性,其中通常负责运动管理和决策的尾状核表现出最强的预测能力:尾状核的血流量和连接性越高,个体的握力越强。此外,涉及记忆的海马尾部和涉及情绪的前扣带回也显示出一定关联。这意味着,通过监测特定脑区的神经连接,医生有望在老年人出现明显身体衰弱之前就识别出风险信号,从而进行针对性的干预。研究发表在 Frontiers in Neuroscience 上。
#疾病与健康 #健康管理与寿命延长 #神经机制与脑功能解析 #衰弱 #脑科学
阅读更多:
Ghaffari, Amin, et al. “Connectome-Based Predictive Modeling of Grip Strength: A Marker of Physical Frailty.” Frontiers in Neuroscience, vol. 19, Dec. 2025. Frontiers, https://doi.org/10.3389/fnins.2025.1697908
AI 行业动态
AI写代码仅用10天:Anthropic新工具Cowork让创业公司“原地蒸发”
Anthropic近日正式推出了名为Cowork的全新智能体工具,号称能让非技术背景的普通用户也能像开发者使用Claude Code一样高效处理任务。作为Claude Code的简化版,Cowork目前以研究预览版的形式,向macOS桌面端的Claude Max订阅者开放。用户只需授权该工具访问特定文件夹,即可通过自然语言指令,指挥AI自主读取、编辑或创建文件,轻松完成诸如自动整理下载文件夹、从截图生成电子表格、基于散乱笔记起草报告以及连接Google Calendar生成文档等复杂工作。令人咋舌的是,据Anthropic的研究人员Boris Cherny透露,Cowork的诞生仅耗时一周半,且其全部代码均由Claude Code自动编写完成。这一突破性进展表明,Anthropic已开始利用AI生成AI的能力,以极低的成本和惊人的速度构建用户端应用生态。
Cowork的横空出世在科技界和创业圈引发了巨大反响。X平台用户vibhu分享称,安装Cowork后仅用2小时便完成了原本需要2个月的职位描述和营销策略撰写工作,这种极端的效率提升让用户甚至因“无事可做”而感到惊慌。尽管部分人质疑其真实性,但该工具对创业公司的冲击却是实打实的。创业者Guohao Li公开表示,由于Cowork的功能直接覆盖了其产品赛道,导致其项目瞬间失去竞争力,最终不得不选择开源,这一举动也得到了Hugging Face联合创始人Thomas Wolf的关注与支持。业界感叹,智能体的快速普及正在重塑创业门槛,现在的科技创业似乎只需“一个大脑加一张付得起AI账单的信用卡”。然而,面对AI全权代理工作带来的效率飞跃,普通用户也开始陷入“既比以往更高效,又感觉自己完全没用”的心理矛盾中。
#Anthropic #Cowork #智能体 #ClaudeCode #AI编程
阅读更多:
https://claude.com/blog/cowork-research-preview
追踪500位老人20年的万维数据现已公开
近日,老年学领域最重要的资源之一——柏林老龄化研究(Berlin Aging Study, BASE)的数据集正式向全球研究界开放。该项目由马克斯·普朗克人类发展研究所、柏林自由大学和柏林洪堡大学等多家顶尖机构合作开展,被视为跨学科老年学研究的开创性工程。目前,经过处理和标准化的数据已托管于莱布尼茨心理学研究所的研究数据中心,供学者获取。BASE 项目的时间跨度极长,研究人员在 1990 年至 1993 年间对 516 名前西柏林居民进行了深入访谈和检查,这些参与者的年龄涵盖 70 岁至 100 岁以上。在随后的近 20 年里,这些老年人接受了多达 7 次的复评,积累了极为详实的纵向数据(Longitudinal Data,指在不同时间点对同一对象进行多次观察所获得的数据,用于分析随时间变化的趋势)。
这套数据集的规模和深度令人瞩目,包含每位参与者多达 10,000 个变量,涵盖了身心健康、生活满意度、社会融入度及经济状况等全方位信息。马克斯·普朗克人类发展研究所的生命周期心理学中心主任 Ulman Lindenberger 指出,这套数据是老龄化研究的宝贵资产,目前的分析仅揭示了冰山一角。通过这些数据,研究人员可以探索牙齿健康与认知功能的关联,或者社会参与度对痴呆与抑郁的影响等复杂问题。ZPID 的档案与出版服务主管 Katarina Blask 强调,遵循 FAIR 原则(Findable, Accessible, Interoperable, Reusable,即数据应具备可发现、可获取、可互操作和可重用的原则)提供数据,将极大地促进国际合作。此前基于该数据的学术文章已超过 500 篇,如今的全面开放将进一步推动对个体及社会老龄化过程的深度解析,并为未来的跨队列和跨学科比较研究奠定坚实基础。
#柏林老龄化研究 #开放科学 #纵向数据 #马克斯普朗克研究所 #老年学
阅读更多:
https://rdc-psychology.org/en/reuse-data/base
AI 驱动科学
Nature系列综述:AI智能体重塑癌症研究与治疗
从自主设计药物到为癌症患者制定治疗方案,AI正在经历从“工具”到“智能体”的质变。Daniel Truhn、Shekoofeh Azizi、James Zou、Jakob Nikolas Kather等研究人员(德累斯顿工业大学、谷歌 DeepMind、斯坦福大学、哈佛大学医学院等)合作发表综述,深入探讨了AI智能体如何突破传统AI的局限,通过推理和规划能力彻底改变癌症研究与肿瘤学的面貌。
该综述指出,与只能完成单一任务的传统AI不同,AI智能体结合了大语言模型的推理能力与外部工具,能够感知环境、制定多步计划并自主执行复杂工作流。在科研领域,智能体已能实现从生成假设、设计实验到撰写论文的全流程自动化,甚至通过多智能体系统模拟不同领域的专家进行协作辩论。在临床肿瘤学中,AI智能体展现了强大的整合能力,如TxAgent系统通过实时访问生物医学知识,综合分析患者的电子健康记录、基因组学及影像数据,提供个性化的治疗建议并自动匹配临床试验。此外,在病理影像分析上,智能体能模拟人类专家的多步推理过程,而非简单的图像识别。作者预测肿瘤学将经历从当前独立的聊天接口,到深度集成医院系统,最终实现自主控制实验室机器人的“智能体化”进程。尽管面临评估标准缺失和伦理监管等挑战,AI智能体正迅速成为癌症研究中的重要协作力量。研究发表在 Nature Reviews Cancer 上。
#AI 驱动科学 #自动化科研 #个性化医疗 #跨学科整合 #大模型技术
阅读更多:
Truhn, Daniel, et al. “Artificial Intelligence Agents in Cancer Research and Oncology.” Nature Reviews Cancer, Jan. 2026, pp. 1–14. www.nature.com, https://doi.org/10.1038/s41568-025-00900-0
AI无法取代人类创造力:技能差异被放大而非抹平
人工智能是否会让每个人都成为艺术家,从而拉平创造力的差距?James C. Kaufman(康涅狄格大学)与Simone A. Luchini等研究人员通过实证研究给出了否定的答案。他们发现,生成式AI非但没有取代人类的创造力,反而充当了能力的“放大器”,使那些原本就具备较强技能的个体受益更多,强调了在AI时代人类判断力和专业知识的不可替代性。
该研究团队设计了一项实验,要求参与者分别在独立完成和使用大型语言模型辅助的情况下进行故事创作任务,并对成品的创造力、智力及整体表现进行了评估。结果显示,原本创造力较强的参与者在使用AI工具时表现出更高的水平,而基础较弱者则受限于AI自身的输出水平。James C. Kaufman指出,这是因为创造力不仅包含生成想法,还包括评估和完善想法,而后者高度依赖人类的元认知,即对自身认知过程的认知。AI虽然擅长生成海量素材,但在判断内容的原创性和价值方面远不及人类。此外,研究还发现学生倾向于高估自己与AI的协作深度,这种“外包”认知工作的行为可能阻碍真正技能的习得。研究人员警告,如果缺乏适当的教育引导,AI可能加剧而非缩小创意领域的技能鸿沟。
#认知科学 #跨学科整合 #创造力 #生成式AI #教育心理学
阅读更多:
Luchini, Simone A, et al. “Generative AI Does Not Erase Individual Differences in Human Creativity.” jszrn_v1, PsyArXiv, 14 Nov. 2025. OSF Preprints, https://doi.org/10.31234/osf.io/jszrn_v1
机器人学会“直觉”抓握:高斯过程回归实现小数据大灵巧
机器人如何像人类一样,凭直觉调整手部力量来抓取软硬不同的未知物体?Akira Takakura、Takahiro Nozaki、Kazuki Yane、Shuichi Adachi(庆应义塾大学)与 Tomoya Kitamura(东京理科大学)组成的团队,开发了一种基于数据驱动的新型运动系统,成功解决了这一难题,使机器人仅需少量数据即可在动态环境中实现类似人类的灵巧操作。
▷ 图片展示了如何将人类的动作实时传递到机器人化身,从而使后者能够完成灵巧的任务。Credit: Keio University Global Research Institute (KGRI)
为了赋予机器人适应不同物体刚度的能力,研究团队摒弃了传统的线性建模方法,转而采用高斯过程回归技术。这种回归技术能够利用少量数据准确映射复杂的非线性关系,通过分析人类对不同物体的抓取动作,系统学会了识别物体“环境刚度”与人类运动意图(即“人体刚度”)之间的关联。实验结果显示,与传统的运动再现系统(Motion Reproduction Systems)和模仿学习模型相比,新系统表现卓越:在处理已知刚度范围内的物体时,其位置控制的均方根误差降低了至少40%;而在处理从未见过的更硬或更软物体时,误差更是降低了74%。这一突破不仅大幅提升了机器人的适应性,也为低成本、高效率的工业自动化应用开辟了新路径。研究发表在 IEEE Transactions on Industrial Electronics 上。
#AI 驱动科学 #机器人及其进展 #自适应控制 #高斯过程回归 #运动再现系统
阅读更多:
Takakura, Akira, et al. “Motion Reproduction System for Environmental Impedance Variation via Data-Driven Identification of Human Stiffness.” IEEE Transactions on Industrial Electronics, 2025, pp. 1–11. IEEE Xplore, https://doi.org/10.1109/TIE.2025.3626633
你的聊天机器人在撒谎吗?新框架利用内部文档验证AI生成的答案
如何判断聊天机器人给出的答案是否正确?Herman Lassche, Michiel Overeem 和 Ayushi Rastogi(格罗宁根大学)与荷兰 AFAS 公司合作,开发了一种基于内部文档验证人工智能生成答案的新框架。该研究不仅模拟了人类专家评估正确性的方式,还证明了高质量的内部知识库对于构建可信赖 AI 系统的重要性。
▷ Credit: University of Groningen / AFAS
研究团队首先通过观察 AFAS 支持人员的工作流程,明确了判断答案正确性的核心要素:真实性(truthfulness)、相关性(relatedness)和完整性(completeness)。基于这些标准,他们利用大语言模型构建了一个自动化验证系统,该系统以公司的内部文档为基准,模拟人类的推理过程而非简单的模式匹配。针对二元问题(是/否)和指令型问题,研究人员设计了不同的评估指标。实验结果显示,该框架能有效识别 55% 的错误回答,并能在未经专门训练的情况下对新任务进行判断。有趣的是,将荷兰语的回答翻译成英语后进行评估,其准确度反而更高。这一系统有望每年为企业节省约 15,000 个工时的人工审核时间。研究发表在 Journal of Systems and Software 上。
#大模型技术 #大模型技术 #自动化验证 #聊天机器人 #客户支持
阅读更多:
Lassche, Herman, et al. “Is Our Chatbot Telling Lies? Assessing Correctness of an LLM-Based Dutch Support Chatbot.” Journal of Systems and Software, vol. 234, Apr. 2026, p. 112699. ScienceDirect, https://doi.org/10.1016/j.jss.2025.112699
软技能至关重要:同理心是提升人机协作效率的关键
在人工智能日益普及的今天,如何更好地驾驭这一工具?Christoph Riedl(东北大学)和 Ben Weidmann(伦敦大学学院)组成的团队不仅关注技术层面的“提示词工程”,更深入探索了人类软技能在人机交互中的作用。他们发现,那些在人类团队协作中至关重要的特质——如同理心和换位思考能力,同样是决定人机协作效率的关键因素,这一发现为人机协同(Human-AI Synergy)的研究提供了全新视角。
该研究开发了一套基于贝叶斯项目反应理论的分析框架,旨在精确量化人机协作中的协同效应。研究团队招募了667名参与者,要求他们完成数学、物理和道德推理等基准测试任务。参与者首先独立作答,随后在 ChatGPT-4 或 Llama-3 的辅助下作答。结果显示,当人类与AI联手时,即便是单独表现较差的 AI 模型(如 Llama-3,正确率仅39%)也能通过协作产生优异结果。更重要的是,研究揭示了心理理论(Theory of Mind)——即推断他人心理状态和观点的能力——与协作绩效呈正相关。那些能够像对待人类一样对待 AI,并提供详细语境(例如“请像教导12岁孩子一样解释”)的参与者,能够引导 AI 输出更高质量的答案。此外,研究还发现 AI 虽然能显著帮助低技能人群缩小差距,但也让高技能人群如虎添翼,保持了相对优势。研究发表在 OSF Preprints 上。
#认知科学 #大模型技术 #人机协作 #同理心
阅读更多:
Riedl, Christoph, and Ben Weidmann. “Quantifying Human-AI Synergy.” vbkmt_v1, PsyArXiv, 22 Sept. 2025. OSF Preprints, https://doi.org/10.31234/osf.io/vbkmt_v1
Yann LeCun团队新作:利用无标签视频训练通用世界模型
为了构建能够在现实世界中进行推理和规划的智能系统,AI需要预测其行为的后果。然而,传统的训练方法依赖于带有动作标签的数据,这在大规模应用中难以获取。Quentin Garrido、Yann LeCun以及Michael Rabbat等人(Meta人工智能研究实验室 FAIR、法国国家数字科学与技术研究所 Inria、纽约大学 NYU)组成的团队,提出了一种在“野外”视频中学习潜在动作世界模型的方法。该研究通过利用海量的无标签视频数据,成功让模型在没有明确动作指令的情况下习得了复杂的动作空间,为AI系统理解物理世界提供了新的路径。
该研究的核心在于开发了一种潜在动作模型(Latent Action Models),旨在从不可控、多样化的“野外”视频(in-the-wild videos)中提取动作特征。研究人员联合训练了一个逆动力学模型(Inverse Dynamics Model,一种根据状态变化推断动作的模型)和一个前向模型。与以往仅关注简单的机器人模拟或游戏环境不同,该团队直接挑战了包含环境噪声且缺乏统一实体(Embodiment,指智能体的物理形态)的真实视频。结果发现,相比于常用的矢量量化(Vector Quantization,一种将连续数据离散化的技术),连续但受限的潜在动作能更有效地捕捉现实世界的复杂性,例如能够识别并迁移“人进入房间”这类环境变化。更重要的是,团队通过训练一个小型控制器,将已知动作映射到这些潜在动作上,使该世界模型能够作为通用接口解决机器人导航和操作等规划任务,其性能与依赖昂贵动作标签训练的基线模型相当。
#其他 #计算模型与人工智能模拟 #世界模型 #潜在动作 #无监督学习
阅读更多:
Garrido, Quentin, et al. “Learning Latent Action World Models In The Wild.” arXiv:2601.05230, arXiv, 8 Jan. 2026. arXiv.org, https://doi.org/10.48550/arXiv.2601.05230
整理|ChatGPT
编辑|丹雀、存源
关于追问nextquestion
天桥脑科学研究院旗下科学媒体,旨在以科学追问为纽带,深入探究人工智能与人类智能相互融合与促进,不断探索科学的边界。欢迎评论区留言,或后台留言“社群”即可加入社群与我们互动。您也可以在后台提问,我们将基于追问知识库为你做出智能回复哦~
关于天桥脑科学研究院
天桥脑科学研究院(Tianqiao and Chrissy Chen Institute)是由陈天桥、雒芊芊夫妇出资10亿美元创建的世界最大私人脑科学研究机构之一,围绕全球化、跨学科和青年科学家三大重点,支持脑科学研究,造福人类。
研究院在华山医院、上海市精神卫生中心分别设立了应用神经技术前沿实验室、人工智能与精神健康前沿实验室;与加州理工学院合作成立了加州理工陈天桥雒芊芊神经科学研究院。
研究院还建成了支持脑科学和人工智能领域研究的生态系统,项目遍布欧美、亚洲和大洋洲,包括、、、科研型临床医生奖励计划、、、科普视频媒体「大圆镜」等。
热门跟贴