Talk预告 | 阿德莱德大学李昱谷：SSVPO - 一种后训练的置信分配使LLM reasoning更加高效|llm|reasoning|ssvpo|李昱谷|讲者|阿德莱德大学

本期为TechBeat人工智能社区第755期线上Talk。

北京时间4月1日(周三) 20:00，阿德莱德大学博士生李昱谷的Talk将准时在TechBeat人工智能社区开播！

他与大家分享的主题是：SSVPO - 一种后训练的置信分配使LLM reasoning更加高效。介时他将聚焦于提升 LLM 数学推理中步骤级信用分配的公平性与有效性，提出一种受多智能体强化学习启发的序列型沙普利值策略优化框架 SSVPO。

Talk·信息

主题：SSVPO - 一种后训练的置信分配使LLM reasoning更加高效

嘉宾：阿德莱德大学·博士生 - 李昱谷

时间：北京时间4月1日(周三) 20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍

LLM在数学推理任务中表现出了出色的能力。然而它仅仅依赖于最终的奖励的训练方式使得LLM对推理轨迹探索并不充分。最近基于信用分配的强化学习方法提供了中间反馈，然而它们往往难以公平地评估每个步骤的重要性，尤其是在部分正确的推理链中。我们提出了“序列型沙普利值策略优化”（SSVPO），这是一种受多智能体强化学习启发的步骤级信用分配框架。

Talk大纲

1. 背景介绍：后训练对LLM在特定任务上的推理能力强化

2. 研究动机：当前RLVR以及采用置信分配工作的不足

3. 技术贡献：2个新理论分别解决了用什么&怎么用

4. 总结展望：当下工作的不足和后续预计解决方案

Talk·预习资料