本期为TechBeat人工智能社区第662期线上Talk。
北京时间2月19日(周三)20:00,北京大学博士生杨灵的Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题是:“ReasonFlux - 思维模版+多层次强化学习打造LLM推理新范式”,届时他将介绍 ReasonFlux,一个创新的层次化LLM推理框架,通过可扩展的思维模板(Thought Template)优化推理搜索空间。
Talk·信息
主题:ReasonFlux - 思维模版+多层次强化学习打造LLM推理新范式
时间:北京时间2月19日(周三)20:00
地点:TechBeat人工智能社区
http://www.techbeat.net/
Talk·介绍
大型语言模型(LLMs)在推理任务方面取得了显著进展,但在解决如奥林匹克竞赛等复杂数学问题时仍面临挑战。本次talk将介绍 ReasonFlux,一个创新的层次化LLM推理框架,通过可扩展的思维模板(Thought Template)优化推理搜索空间。实验表明,ReasonFlux在MATH基准测试中达到了91.2%的准确率,比o1-preview高出6.7%;在AIME基准测试中,解决了56.7%的问题,分别比o1-preview和DeepSeek V3高出27%和45%。这些结果都表明着思维模板(Thought Template)有潜力代替CoT成为更高效的大模型推理轨迹表征。
Talk大纲
1. Buffer of Thought (NeurIPS 2024 spotlight):思维模版(Thought Template) vs 思维链(Chain-of-Thought)
2. SuperCorrect (ICLR 2025):基于思维模版的LLM多层次蒸馏技术
3. ReasonFlux:思维模版+多层次强化学习打造LLM推理新范式
Talk·预习资料
论文链接: https://arxiv.org/abs/2406.04271 代码链接: https://github.com/YangLing0818/buffer-of-thought-llm
论文链接: https://arxiv.org/abs/2410.09008 代码链接: https://github.com/YangLing0818/SuperCorrect-llm
论文链接: https://arxiv.org/abs/2502.06772 代码链接: https://github.com/Gen-Verse/ReasonFlux
Talk·提问交流
在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!
你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!
Talk·嘉宾介绍
杨灵
北京大学 · 博士生
北京大学在读博士,他的研究领域涵盖大语言模型和扩散模型,以第一作者在ICLR/NeurIPS/ICML/CVPR等顶级人工智能会议期刊上发表论文20余篇,主导并开源RPG-DiffusionMaster,Buffer-of-Thought,ReasonFlux等多个明星研究项目。
个人主页: https://www.techbeat.net/grzytrkj?id=8345
-The End-
如果你也想成为讲者
自荐 / 推荐
单人Talk | 团队专场 | 录播or直播 | 闭门交流
多种方式任你选择!
推荐讲者成功也有奖励哦~
关于TechBeat人工智能社区
TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>
预约本期Talk
热门跟贴