智能体如何构建环境认知？世界模型学习的基础、进展与挑战｜自由能原理与强化学习读书会·周日直播|智能体|环境认知|算法|读书会

导语

人工智能领域中与自由能原理密切相关的是强化学习中的世界模型（World Model）。面对复杂的环境，智能体往往需要学习一个多尺度的世界模型。学习到世界模型后，智能体基于此模型进行规划或探索。本期将从自由能原理进入到强化学习部分，由南京大学人工智能学院博士生罗凡明围绕最新发表的综述论文“A survey on model-based reinforcement learning”介绍基于模型的强化学习框架，欢迎感兴趣的朋友加入读书会，一起讨论交流！

内容简介

视频生成模型Sora的爆火将“世界模型”的概念引入大众的视野。那么什么是世界模型？Sora与世界模型的共通和差异之处又在何处？事实上，早在Sora出现之前，世界模型已经在强化学习领域中作为一个主流的概念被研究者们熟知，并围绕此发展出了一类主流的强化学习方法：基于模型的强化学习（Model-Based Reinforcement Learning）。

强化学习是一种通过试错与环境交互来解决序列决策问题的方法。在允许大量试错的决策任务中，强化学习表现出色。但在现实任务中，大量的试错通常是不被允许的。而基于模型的强化学习则通过构建世界模型，并在世界模型中进行试错来避免在真实世界中的试错成本，进一步推动了强化学习在实际任务中的应用。

基于模型的强化学习算法通常分为两个步骤：首先从历史数据中构建世界模型，然后使用这个世界模型导出最优行为，这与自由能原理有着高度的相关性。在模型学习中，模型与世界的交互数据学习世界模型、增强感知；在使用模型的过程中，智能体结合世界模型进行学习或规划，并影响世界。

本次读书会将围绕基于模型的强化学习展开，并对其核心的模型学习部分进行着重讨论。本次分享将从介绍其概念、问题、基础算法开始，然后对近期提出的世界模型学习算法进行综合性的介绍，最后对模型学习中尚未解决的问题以及未来的发展方向进行讨论。

内容大纲

背景
基于模型的强化学习框架
- 模型学习
- 模型使用
模型的累积误差问题
经典模型学习
世界模型学习的近期进展
- 模型结构
- 多步/多步匹配
- 自适应模型学习
- 带约束的模型学习
- 奖励一致性模型学习
- 大模型
讨论与未来展望

关键词

基于模型的强化学习 Model-Based Reinforcement Learning
系统辨识 System Identification
世界模型学习 World Model Learning
累积误差 Compounding Error
分布匹配 Distribution Matching

参考文献

Luo, F. M., Xu, T., Lai, H., Chen, X. H., Zhang, W., & Yu, Y. (2024). A survey on model-based reinforcement learning. Science China Information Sciences, 67(2), 121101.
Luo, F. M., Xu, T., Cao, X., & Yu, Y. Reward-Consistent Dynamics Models are Strongly Generalizable for Offline Reinforcement Learning. In ICLR 2024.
Lu, Songwu, and Tamer Basar. "Robust nonlinear system identification using neural-network models." IEEE Transactions on Neural networks (1998): 407-429.
Hafner, Danijar, et al. Learning latent dynamics for planning from pixels. In ICML 2019.
Zhang, Marvin, et al. SOLAR: Deep structured representations for model-based reinforcement learning. In ICML 2019.
Janner, Michael, Qiyang Li, and Sergey Levine. Offline reinforcement learning as one big sequence modeling problem. In NeurIPS 2021.
Ho, Jonathan, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS 2020.
Janner, Michael, et al. Planning with diffusion for flexible behavior synthesis. arXiv:2205.09991 (2022).
Ho, Jonathan, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS 2020.
Martín H, José Antonio, et al. "Reinforcement Learning in System Identification." arXiv:2212.07123 (2022).
Al-Hafez, Firas, et al. "LS-IQ: Implicit Reward Regularization for Inverse Reinforcement Learning.” In ICLR 2023.
Xu, Tian, Ziniu Li, and Yang Yu. "Error bounds of imitating policies and environments for reinforcement learning." IEEE Transactions on Pattern Analysis and Machine Intelligence 44.10 (2021): 6968-6980.
Wu, Yueh-Hua, et al. "Model imitation for model-based reinforcement learning." arXiv preprint arXiv:1909.11821(2019).
Lee, Kimin, et al. "Context-aware dynamics model for generalization in model-based reinforcement learning." In ICML 2020.
Asadi, Kavosh, Dipendra Misra, and Michael Littman. "Lipschitz continuity in model-based reinforcement learning." In ICML 2018.
Park, Seohong, and Sergey Levine. "Predictable MDP Abstraction for Unsupervised Model-Based RL." arXiv preprint arXiv:2302.03921 (2023).

主讲人

罗凡明，南京大学人工智能学院三年级博士生，导师是俞扬教授。研究方向为基于模型的强化学习与元强化学习，近期的研究兴趣集中于学习可自适应的策略、模型与奖励函数。

个人主页：www.lamda.nju.edu.cn/luofm

时间：2024年4月28日（本周日）上午10:00-12:00

报名读书会：

斑图地址：https://pattern.swarma.org/study_group_issue/628

扫码参与，加入群聊，获取系列读书会回看权限，加入集智社区，与社区的一线科研工作者沟通交流，共同推动这一前沿领域的发展。

报名成为主讲人：

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员，均遵循内容共创共享机制，可以获得报名费退款，并共享本读书会产生的所有内容资源。具体见系列读书会详情：

自由能原理与强化学习读书会招募中

自由能原理被认为是“自达尔文自然选择理论后最包罗万象的思想”，它试图从物理、生物和心智的角度提供智能体感知和行动的统一性规律，从第一性原理出发解释智能体更新认知、探索和改变世界的机制，从而对人工智能，特别是强化学习世界模型、通用人工智能研究具有重要启发意义。

集智俱乐部联合北京师范大学系统科学学院博士生牟牧云，南京航空航天大学副教授何真，以及骥智智能科技算法工程师、公众号 CreateAMind 主编张德祥，共同发起「」，希望从自由能原理这个更底层的视角重新审视强化学习世界模型，探讨自由能原理、强化学习世界模型，以及脑与意识问题中的预测加工理论等前沿交叉问题，探索这些不同领域背后蕴含的感知和行动的统一原理。读书会从3月10日开始，每周日上午10:00-12:00，持续时间预计8-10周。欢迎感兴趣的朋友报名参与！

详情请见：