本期为TechBeat人工智能社区第755期线上Talk。
北京时间4月1日(周三) 20:00,阿德莱德大学博士生李昱谷的Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题是:SSVPO - 一种后训练的置信分配使LLM reasoning更加高效。介时他将聚焦于提升 LLM 数学推理中步骤级信用分配的公平性与有效性,提出一种受多智能体强化学习启发的序列型沙普利值策略优化框架 SSVPO。
Talk·信息
主题:SSVPO - 一种后训练的置信分配使LLM reasoning更加高效
时间:北京时间4月1日(周三) 20:00
地点:TechBeat人工智能社区
http://www.techbeat.net/
Talk·介绍
LLM在数学推理任务中表现出了出色的能力。然而它仅仅依赖于最终的奖励的训练方式使得LLM对推理轨迹探索并不充分。最近基于信用分配的强化学习方法提供了中间反馈,然而它们往往难以公平地评估每个步骤的重要性,尤其是在部分正确的推理链中。我们提出了“序列型沙普利值策略优化”(SSVPO),这是一种受多智能体强化学习启发的步骤级信用分配框架。
Talk大纲
1. 背景介绍:后训练对LLM在特定任务上的推理能力强化
2. 研究动机:当前RLVR以及采用置信分配工作的不足
3. 技术贡献:2个新理论分别解决了 用什么&怎么用
4. 总结展望:当下工作的不足和后续预计解决方案
Talk·预习资料
[1] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models 论文链接:https://arxiv.org/abs/2402.03300
[2] VinePPO: Refining Credit Assignment in RL Training of LLMs 论文链接:https://arxiv.org/abs/2410.01679
Talk·提问交流
在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
Talk·嘉宾介绍
李昱谷
阿德莱德大学·博士生
李昱谷,硕士毕业于中科院自动化研究所,研究方向为RL,ADP,MARL 目前博士二年级,师从Jimmy Cao, 研究方向为RL4LLM,目前有多篇文章发表在IEEE Trans 系列期刊上,同时有工作接受在AAMAS(Oral)以及ICLR(Poster)等会议上。
个人主页: https://www.techbeat.net/grzytrkj?id=46330
-The End-
如果你也想成为讲者
自荐 / 推荐
单人Talk | 团队专场 | 录播or直播 | 闭门交流
多种方式任你选择!
推荐讲者成功也有奖励哦~
关于TechBeat人工智能社区
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>
预约本期Talk
热门跟贴