训练3个月不如调个开关，大模型冷启动被重新定义

全栈遛狗员

2026-04-04 16:46 ·北京

做产品的都懂一个道理：上线只是开始，能不能活过冷启动才是生死线。大模型也一样。

港科大和阿里最近放出一项研究，把业内一个默认假设给打破了——你以为SFT（监督微调）阶段表现好的模型，强化学习阶段一定潜力更大？数据说：未必。

这有点像选秀节目。初赛唱得稳的选手，决赛未必能炸场；反而有些初赛磕磕绊绊的，进了实战环节突然开窍。问题出在"舞台"不一样：SFT考的是模仿能力，RL（强化学习）考的是探索能力，两套评分标准。

研究团队的核心发现是：模型在SFT阶段对"不确定样本"的处理方式，才是预测RL潜力的关键指标。他们据此提出自适应冷启动策略——不再一刀切地喂数据，而是让模型自己判断哪些该学、哪些该放，动态调整学习节奏。

实验结果很直接：同样基座模型，用新策略冷启动后，RL阶段的最终性能平均提升15%以上。换句话说，不是模型不行，是开门的方式不对。

一个值得玩味的细节：团队开源的代码里，默认把"不确定样本阈值"设成了0.3。有开发者反馈，调到0.5后在自己业务场景下效果反而更好——看来这个开关，还得结合具体产品手感来拧。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴