Talk预告 | 芝加哥大学王胤杰：环境，策略和奖励模型的协同进化强化学习|人工智能|王胤杰|芝加哥大学

本期为TechBeat人工智能社区第750期线上Talk。

北京时间3月12日(周四) 20:00，芝加哥大学博士生王胤杰的Talk将准时在TechBeat人工智能社区开播！

他与大家分享的主题是：环境，策略和奖励模型的协同进化强化学习。届时他将介绍 RLAnything，一种让环境，策略和奖励模型互相反馈，同时提升的强化学习框架，从而增强训练的信号强度并优化整个系统。

Talk·信息

主题：环境，策略和奖励模型的协同进化强化学习

嘉宾：芝加哥大学 · 博士生 - 王胤杰

时间：北京时间3月12日(周四) 20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍

我们提出RLAnything，一种让环境，策略和奖励模型互相反馈，同时提升的强化学习框架，从而增强训练的信号强度并优化整个系统。

具体来说，策略模型同时接收来自环境的最终验证结果与来自奖励模型的逐步奖励，并将二者融合为统一的综合型反馈（integrated feedback）；奖励模型结合最终结果反馈与自洽性约束，构造一致性反馈（consistency feedback），与策略模型进行联合优化，从而进一步提升策略模型的训练效果。

我们从理论上证明，对环境任务难度进行调控不仅有利于策略模型优化，也能促进奖励模型的学习；因此，我们基于策略模型与奖励模型的批判反馈（critic feedback），自适应地调控环境任务难度，从而形成闭环优化。

Talk大纲

1. 奖励模型如何和策略模型共同进化

2. 环境的灵活变动能强化奖励模型以及策略模型的优化信号

3. 环境可以通过两模型的反馈实现自动且可靠的自适应

4. 在实际agent应用场景的大规模RL实验结果

5. RLAnything一些额外的应用

Talk·预习资料

RLAnything: Forge Environment, Policy, and Reward Model in Completely Dynamic RL System 论文链接： https://arxiv.org/abs/2602.02488 代码链接： https://github.com/Gen-Verse/Open-AgentRL

Talk·提问交流

在Talk界面下的【交流区】参与互动！留下你的打call和问题，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

王胤杰‍‍‍‍‍‍‍‍‍‍‍

芝加哥大学 · 博士生
‍‍‍

王胤杰是芝加哥大学二年级博士生王胤杰，曾毕业于中国科学技术大学少年班学院，近期在普林斯顿大学 AI Lab 实习。研究方向聚焦于大语言模型、智能体及其强化学习方法。开源代表作涵盖了不同应用场景的强化学习框架，包括代码生成框架 CURE、扩散语言模型强化学习框架 dLLM-RL，以及面向智能体的 RLAnything。第一作者论文发表于 NeurIPS、ICLR 等国际会议，并在 NeurIPS 2025 获得 Spotlight。