打开网易新闻 查看精彩图片
做产品的都懂一个道理:上线只是开始,能不能活过冷启动才是生死线。大模型也一样。
港科大和阿里最近放出一项研究,把业内一个默认假设给打破了——你以为SFT(监督微调)阶段表现好的模型,强化学习阶段一定潜力更大?数据说:未必。
这有点像选秀节目。初赛唱得稳的选手,决赛未必能炸场;反而有些初赛磕磕绊绊的,进了实战环节突然开窍。问题出在"舞台"不一样:SFT考的是模仿能力,RL(强化学习)考的是探索能力,两套评分标准。
研究团队的核心发现是:模型在SFT阶段对"不确定样本"的处理方式,才是预测RL潜力的关键指标。他们据此提出自适应冷启动策略——不再一刀切地喂数据,而是让模型自己判断哪些该学、哪些该放,动态调整学习节奏。
实验结果很直接:同样基座模型,用新策略冷启动后,RL阶段的最终性能平均提升15%以上。换句话说,不是模型不行,是开门的方式不对。
一个值得玩味的细节:团队开源的代码里,默认把"不确定样本阈值"设成了0.3。有开发者反馈,调到0.5后在自己业务场景下效果反而更好——看来这个开关,还得结合具体产品手感来拧。
热门跟贴