人类拥有卓越的稳定性和灵活性,即使面对突如其来的变化,也能迅速制定新的计划并调整目标。然而,广泛应用于机器人领域的“无模型强化学习”(AlphaGo 与李世石的著名对决便是其例证)却难以同时具备这两种能力。
韩国科学技术院 (KAIST) 的研究团队发现,秘密在于前额叶皮层内独特的信息处理方法,这一原理可以作为开发既灵活又稳定的类脑人工智能的基础。
由脑与认知科学系李相万教授领导的研究团队与 IBM 人工智能研究院合作,破译了人类大脑如何在不确定情况下管理目标变化,为下一代强化学习指明了新的方向。
前额叶的秘密
研究团队指出当前强化学习模型的一个关键局限性:它们无法在目标追求的灵活性和不确定环境下的稳定性之间取得平衡。然而,人类却能同时做到这两点。该团队假设,这种差异源于前额叶皮层对信息的表征方式。
研究团队利用功能磁共振成像(fMRI)实验、强化学习模型和先进的人工智能分析,揭示了人类前额叶皮层具有独特的嵌入结构,能够将目标信息和不确定性信息分别表征,从而避免相互干扰。那些这两个信息通道分离度更高的人,能够在目标发生变化时调整策略,同时在环境不确定性下保持稳定的判断。
两个通道,两个功能
研究团队将这种机制比作通信技术中的多路复用,即同时传输多个信号而不会相互干扰。
人类前额叶皮层通过两个通道运作:一个通道能够灵敏地跟踪目标变化,以确保决策的灵活性;另一个通道能够隔离环境的不确定性,以保持判断的稳定性。
有趣的是,前额叶皮层不仅仅是执行由第一通道引导的控制;它还利用第二通道根据情况选择使用哪种学习策略。
这表明大脑具有元学习能力,也就是说,它不仅学习学习什么,还学习如何学习——通过选择合适的学习策略。这就是为什么人类能够在不断变化的环境中保持适应能力的原因。
这项研究的意义涵盖多个领域,包括个体强化学习和元学习能力的分析、个性化教育设计、认知诊断以及人机交互(HCI)。此外,将类脑表征结构嵌入人工智能,有望实现类脑思维的人工智能,使其更好地理解人类的意图和价值观,减少危险判断,并促进与人类更安全的合作。
首席研究员李相完教授强调了研究结果的重要性:“这项研究从人工智能的角度阐明了大脑的基本运行原则——从灵活地适应不断变化的目标到稳定地制定计划。这些原则将成为下一代人工智能的核心基础,使其能够像人类一样适应环境,并更安全、更智能地学习。”
新闻来源:Medical Press
论文参考:DOI: 10.1038/s41467-025-66677-w
热门跟贴