Talk预告｜北京大学杨灵：ReasonFlux - 思维模版+多层次强化学习打造LLM推理新范式

将门创投

2025-02-18 08:24 ·北京 ·优质互联网领域创作者

本期为TechBeat人工智能社区第662期线上Talk。

北京时间2月19日(周三)20:00，北京大学博士生杨灵的Talk将准时在TechBeat人工智能社区开播！

他与大家分享的主题是:“ReasonFlux - 思维模版+多层次强化学习打造LLM推理新范式”，届时他将介绍 ReasonFlux，一个创新的层次化LLM推理框架，通过可扩展的思维模板（Thought Template）优化推理搜索空间。

Talk·信息

主题：ReasonFlux - 思维模版+多层次强化学习打造LLM推理新范式

嘉宾：北京大学 · 博士生 - 杨灵

时间：北京时间2月19日(周三)20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍

大型语言模型（LLMs）在推理任务方面取得了显著进展，但在解决如奥林匹克竞赛等复杂数学问题时仍面临挑战。本次talk将介绍 ReasonFlux，一个创新的层次化LLM推理框架，通过可扩展的思维模板（Thought Template）优化推理搜索空间。实验表明，ReasonFlux在MATH基准测试中达到了91.2%的准确率，比o1-preview高出6.7%；在AIME基准测试中，解决了56.7%的问题，分别比o1-preview和DeepSeek V3高出27%和45%。这些结果都表明着思维模板（Thought Template）有潜力代替CoT成为更高效的大模型推理轨迹表征。

Talk大纲

1. Buffer of Thought (NeurIPS 2024 spotlight)：思维模版（Thought Template） vs 思维链（Chain-of-Thought）

2. SuperCorrect (ICLR 2025)：基于思维模版的LLM多层次蒸馏技术

3. ReasonFlux：思维模版+多层次强化学习打造LLM推理新范式

Talk·预习资料

论文链接： https://arxiv.org/abs/2406.04271 代码链接： https://github.com/YangLing0818/buffer-of-thought-llm

论文链接： https://arxiv.org/abs/2410.09008 代码链接： https://github.com/YangLing0818/SuperCorrect-llm

论文链接： https://arxiv.org/abs/2502.06772 代码链接： https://github.com/Gen-Verse/ReasonFlux

Talk·提问交流

在Talk界面下的【交流区】参与互动！留下你的打call和问题，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

杨灵‍‍‍‍‍‍‍‍‍‍‍

北京大学 · 博士生‍‍‍

北京大学在读博士，他的研究领域涵盖大语言模型和扩散模型，以第一作者在ICLR/NeurIPS/ICML/CVPR等顶级人工智能会议期刊上发表论文20余篇，主导并开源RPG-DiffusionMaster，Buffer-of-Thought，ReasonFlux等多个明星研究项目。

个人主页: https://www.techbeat.net/grzytrkj?id=8345‍‍‍‍

-The End-

如果你也想成为讲者

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择！

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>

预约本期Talk

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴