打开网易新闻 查看精彩图片

本期为TechBeat人工智能社区755线上Talk。

北京时间4月1(周三) 20:00,阿德莱德大学博士生李昱谷的Talk将准时在TechBeat人工智能社区开播!

他与大家分享的主题是:SSVPO - 一种后训练的置信分配使LLM reasoning更加高效。介时他将聚焦于提升 LLM 数学推理中步骤级信用分配的公平性与有效性,提出一种受多智能体强化学习启发的序列型沙普利值策略优化框架 SSVPO。

Talk·信息

主题:SSVPO - 一种后训练的置信分配使LLM reasoning更加高效

嘉宾:阿德莱德大学·博士生 - 李昱谷

时间:北京时间4月1日(周三) 20:00

地点:TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍

LLM在数学推理任务中表现出了出色的能力。然而它仅仅依赖于最终的奖励的训练方式使得LLM对推理轨迹探索并不充分。最近基于信用分配的强化学习方法提供了中间反馈,然而它们往往难以公平地评估每个步骤的重要性,尤其是在部分正确的推理链中。我们提出了“序列型沙普利值策略优化”(SSVPO),这是一种受多智能体强化学习启发的步骤级信用分配框架。

Talk大纲

1. 背景介绍:后训练对LLM在特定任务上的推理能力强化

2. 研究动机:当前RLVR以及采用置信分配工作的不足

3. 技术贡献:2个新理论分别解决了 用什么&怎么用

4. 总结展望:当下工作的不足和后续预计解决方案

Talk·预习资料


打开网易新闻 查看精彩图片

[1] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models 论文链接:https://arxiv.org/abs/2402.03300

打开网易新闻 查看精彩图片

[2] VinePPO: Refining Credit Assignment in RL Training of LLMs 论文链接:https://arxiv.org/abs/2410.01679

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

打开网易新闻 查看精彩图片

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

打开网易新闻 查看精彩图片

李昱谷

阿德莱德大学·博士生
‍‍‍

李昱谷,硕士毕业于中科院自动化研究所,研究方向为RL,ADP,MARL 目前博士二年级,师从Jimmy Cao, 研究方向为RL4LLM,目前有多篇文章发表在IEEE Trans 系列期刊上,同时有工作接受在AAMAS(Oral)以及ICLR(Poster)等会议上。

个人主页: https://www.techbeat.net/grzytrkj?id=46330

-The End-

打开网易新闻 查看精彩图片

如果你也想成为讲者

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择!

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>

预约本期Talk