打开网易新闻 查看精彩图片

导语

强化学习中的世界模型(World Model)与以自由能原理为基础的主动推理框架密切相关。本周日(5月12日)上午的读书会是强化学习主题下的第二期,北京师范大学系统科学学院博士生牟牧云将从自由能原理视角出发,介绍强化学习世界模型以及强化学习探索领域的相关工作,试图探讨两者背后智能体感知与行动的统一原理。

内容简介

强化学习中的世界模型(World Model)与以自由能原理为基础的主动推理框架密切相关,智能体的感知与行动是二者共同关心的话题。在主动推理框架中,变分自由能最小化的过程可视为在模型预测准确性与模型复杂度之间寻求平衡,这一过程对应了强化学习中世界模型的学习。主动推理框架中预期的自由能最小化过程涵盖了信息增益与偏好两个方面,分别对应了强化学习中探索与利用的平衡。

在世界模型中,智能体首先通过观测数据推断隐状态的动力学模型。学习世界模型后,智能体基于此模型进行决策规划以及探索。在面对复杂的环境时,智能体往往需要学习一个多尺度的世界模型。这种多尺度特性涉及时间和空间维度,以及状态和动作两个关键层面。

本次分享将从自由能原理的视角出发,介绍强化学习世界模型以及强化学习探索领域的相关工作。

内容大纲

  • 信息论基础

  • 变分自编码器

  • 变分自由能与强化学习世界模型

  • 分层世界模型

  • 期望自由能与强化学习探索

关键词

  • 世界模型 World Model

  • 强化学习探索 Reinforcement Learning Exploration

  • 变分自编码器 Variational autoencoder

  • 互信息 Mutual Information

  • 信息增益 Information Gain

参考文献

  • Pinkard H, Waller L. A visual introduction to information theory[J]. arXiv preprint arXiv:2206.07867, 2022.

  • Higgins I, Matthey L, Pal A, et al. beta-vae: Learning basic visual concepts with a constrained variational framework[J]. 2016.

  • Ha D, Schmidhuber J. Recurrent world models facilitate policy evolution[J]. Advances in neural information processing systems, 2018, 31.

  • Mazzaglia P, Verbelen T, Çatal O, et al. The free energy principle for perception and action: A deep learning perspective[J]. Entropy, 2022, 24(2): 301.

  • Hafner D, Lillicrap T, Fischer I, et al. Learning latent dynamics for planning from pixels. ICML 2019

  • Hafner D, Ortega P A, Ba J, et al. Action and perception as divergence minimization[J]. arXiv preprint arXiv:2009.01791, 2020.

  • Hafner D, Lillicrap T, Ba J, et al. Dream to control: Learning behaviors by latent imagination[J]. arXiv preprint arXiv:1912.01603, 2019.

  • Hafner D, Lillicrap T, Norouzi M, et al. Mastering atari with discrete world models[J]. arXiv preprint arXiv:2010.02193, 2020.

  • Hafner D, Pasukonis J, Ba J, et al. Mastering diverse domains through world models[J]. arXiv preprint arXiv:2301.04104, 2023.

  • Saxena V, Ba J, Hafner D. Clockwork variational autoencoders[J]. NIPS 2021, 34: 29246-29257.

  • Gumbsch C, Sajid N, Martius G, et al. Learning Hierarchical World Models with Adaptive Temporal Abstractions from Discrete Latent Dynamics. ICLR 2024

  • Hao J, Yang T, Tang H, et al. Exploration in deep reinforcement learning: From single-agent to multiagent domain[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023.

  • Pathak D, Gandhi D, Gupta A. Self-supervised exploration via disagreement. ICML 2019

  • Sekar R, Rybkin O, Daniilidis K, et al. Planning to explore via self-supervised world models. ICML 2020

  • Shyam P, Jaśkowski W, Gomez F. Model-based active exploration. ICML, 2019

  • Houthooft R, Chen X, Duan Y, et al. Vime: Variational information maximizing exploration. NIPS 2016

  • Mazzaglia P, Catal O, Verbelen T, et al. Curiosity-driven exploration via latent bayesian surprise. AAAI 2022

主讲人

牟牧云,北京师范大学系统科学学院博士生,张江老师因果涌现研究小组成员。研究方向:复杂系统建模与调控、强化学习世界模型。

时间:2024年5月12日(本周日)上午10:00-12:00

报名读书会

斑图地址:https://pattern.swarma.org/study_group_issue/629

扫码参与,加入群聊,获取系列读书会回看权限,加入集智社区,与社区的一线科研工作者沟通交流,共同推动这一前沿领域的发展。

报名成为主讲人:

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。具体见系列读书会详情:

自由能原理与强化学习读书会招募中

自由能原理被认为是“自达尔文自然选择理论后最包罗万象的思想”,它试图从物理、生物和心智的角度提供智能体感知和行动的统一性规律,从第一性原理出发解释智能体更新认知、探索和改变世界的机制,从而对人工智能,特别是强化学习世界模型、通用人工智能研究具有重要启发意义。

集智俱乐部联合北京师范大学系统科学学院博士生牟牧云,南京航空航天大学副教授何真,以及骥智智能科技算法工程师、公众号 CreateAMind 主编张德祥,共同发起 「」 ,希望从自由能原理这个更底层的视角重新审视强化学习世界模型,探讨自由能原理、强化学习世界模型,以及脑与意识问题中的预测加工理论等前沿交叉问题,探索这些不同领域背后蕴含的感知和行动的统一原理。读书会从3月10日开始,每周日上午10:00-12:00,持续时间预计8-10周。欢迎感兴趣的朋友报名参与!

详情请见: