Talk预告 | 浙江大学杨慎之：弱监督RLVR - 半监督与噪声标签学习|rlvr|杨慎之|浙江大学|苏州大学

本期为TechBeat人工智能社区第762期线上Talk。

北京时间4月23日(周四) 20:00，浙江大学博士生杨慎之的Talk将准时在TechBeat人工智能社区开播！

他与大家分享的主题是：弱监督RLVR：半监督与噪声标签学习。届时他将围绕弱监督 RLVR 训练展开分享，结合两篇工作（分别聚焦半监督学习与噪声标签鲁棒学习），系统介绍如何在标注稀缺、标签不可靠的真实场景中，提升大模型推理训练的数据效率与训练鲁棒性。

Talk·信息

主题：弱监督RLVR：半监督与噪声标签学习

嘉宾：浙江大学 - 杨慎之

时间：北京时间4月23日(周四) 20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍

RLVR训练依赖高质量标注，但真实场景中标注稀缺且易出错。我们首次从弱监督视角切入，系统探索两大关键场景：半监督（TraPO）利用少量标注数据，通过轨迹匹配引导无标注数据学习，大幅提升数据效率；噪声标签（OLR）首次分析RLVR中的噪声机制，提出早期正确性协同现象，实现在线标签修正。两者共同构建了更实用、更鲁棒的RLVR训练范式。

Talk大纲

1. 介绍RLVR的背景与挑战。

RLVR在推理模型训练中取得了显著成功，但其核心依赖大规模高质量标注数据，现实场景中标注成本高、专家稀缺、噪声不可避免，这构成了主要的现实瓶颈。

2. 阐述动机与问题。

聚焦弱监督RLVR下的两大关键场景：半监督场景下，少量标注搭配大量无标注数据，如何有效利用无标注样本；噪声标签场景下，标注可能存在错误，模型如何鲁棒学习。现有方法无论是纯监督、纯无监督还是简单组合，均存在明显局限。

3. 介绍第一个解决方案TraPO。

针对半监督RLVR，核心洞察是无标注样本的通过率轨迹与标注样本对齐时更可靠，因此通过轨迹相似度匹配动态筛选可靠无标注样本，仅用10%的标注量即可超越全监督性能。

4. 介绍第二个解决方案OLR。

针对噪声标签RLVR，核心现象是早期正确性协同，即噪声样本在早期训练中也能学习到正确答案，据此利用多数答案通过率斜率和历史一致性在线修正噪声标签，在0.1到0.9的噪声率下均能稳定提升。

5. 总结与展望。

两个方法分别应对弱监督RLVR中的标注稀缺与标注不可靠问题，共同构建了更实用、更鲁棒的RLVR训练范式，未来可向更大模型、跨任务泛化及主动学习式标注筛选方向拓展。

Talk·预习资料

[1] TraPO: A Semi-Supervised Reinforcement Learning Framework for Boosting LLM Reasoning 论文链接：https://arxiv.org/abs/2512.13106 代码链接：https://github.com/ShenzhiYang2000/TRAPO

[2] Can LLMs Learn to Reason Robustly under Noisy Supervision? 论文链接：https://arxiv.org/abs/2604.03993

Talk·提问交流

在Talk界面下的【交流区】参与互动！留下你的打call和问题，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

杨慎之

浙江大学·博士生

杨慎之是浙江大学软件学院博士一年级学生，师从王皓波教授。他本科毕业于浙江工业大学通信工程专业，硕士毕业于苏州大学软件工程专业，师从章晓芳教授。他的研究方向主要聚焦于大语言模型与多模态大模型的鲁棒强化训练，尤其关注如何在数据高效和噪声标注的场景下，利用强化学习提升模型的推理能力与可靠性。他曾在蚂蚁集团进行研究实习，已在NeurIPS、ICML、ICLR等人工智能顶级会议上发表多篇第一作者论文，目前担任ICML、ICLR等国际会议及期刊的审稿人。他曾获研究生国家奖学金、浙江省政府奖学金、苏州大学优秀毕业生等荣誉。