一个32B参数的模型,思考长度从4000 token干到10000+,数学 benchmark 准确率从50%爬到58%。这组数字来自阿里Qwen团队今天放出的新算法FIPO,全名叫Future-KL Influenced Policy Optimization。他们没堆算力,没加数据,只改了一件事:怎么给AI的"思考步骤"发奖金。
强化学习的"大锅饭"问题
现在的推理模型训练,本质上是一场集体考核。模型生成一整段思考链,最后给个总分,然后这个分数被平均分配给每一个token。逗号和关键转折点拿一样的钱。
Qwen团队把这叫做"钝化的信用分配"(blunt credit assignment)。他们用GRPO(Group Relative Policy Optimization,群体相对策略优化)做基线测试,发现推理链长到一定程度就彻底卡死,像跑步机上的仓鼠——跑得再快,位置不变。
这个瓶颈不是算力不够,是激励机制设计得太糙。模型不知道哪一步思考真正推动了结论,只能盲目堆砌token长度,直到边际收益归零。
FIPO的解法:往前看三步
FIPO的核心改动是引入"前向影响"评估。生成某个token之后,算法会扫描后续所有token的概率分布变化,计算这个当前动作对下游行为的累积影响。简单说:不光看你干了什么,还看你把团队带向了哪里。
这个设计让奖励分配有了梯度。引爆一条高效推理链的token拿大头,把模型带进死胡同的token被削奖。训练信号从"年终总评"变成了"过程KPI"。
为了稳住训练,团队加了几道保险。折扣因子(discount factor)让远处token的权重衰减——预测太远的事本来也不靠谱。还有一道漂移过滤器,剔除那些让模型行为剧烈震荡的token。没这道闸,训练会直接崩溃,输出长度断崖式下跌。
对比实验:零长思维链数据起步
测试用的基座模型是Qwen2.5-32B-Base,关键限制是完全没有接触过合成长思维链数据。训练数据只用DAPO的公开数据集——这是GRPO的一个流行开源变体,保证对比公平。
结果分两块看。长度维度:DAPO平均卡在4000 token,FIPO突破10000,翻了2.5倍。质量维度:AIME 2024数学 benchmark,准确率从50%提升到56%,峰值58%。
横向对比更刺眼。DeepSeek-R1-Zero-Math-32B约47%,OpenAI的o1-mini约56%。FIPO用更干净的训练条件,跑到了o1-mini的头顶。
绕开价值模型的陷阱
之前解决"平均奖励"问题的思路,主要靠PPO(Proximal Policy Optimization,近端策略优化)那一套——训练一个独立的价值模型,给每个token打分。但这个辅助模型通常需要预训练,而且得喂大量长思维链数据。
Qwen团队指出一个尴尬的事实:这种设计让实验变得不干净。你分不清性能提升是来自算法创新,还是从预训练的价值模型里继承的"外挂知识"。FIPO完全跳过辅助模型,靠前向概率分析硬算,结果还能打平甚至超越。
这个选择有工程代价。前向扫描意味着更高的计算开销,但换来的是可解释性和复现性。你知道模型为什么给某个token高分,而不是面对一个黑箱价值网络的神秘输出。
为什么是现在
推理模型的竞赛正在从"谁能生成更长"转向"谁能生成更对"。OpenAI的o系列、DeepSeek的R1、阿里的Qwen,都在摸索同一个问题:怎么让AI的"内心独白"真正服务于答案质量,而不是自我感动的表演。
FIPO的切入点很产品经理:重新设计激励机制。不是加数据、不是扩参数,是改规则。这个思路在组织管理里常见——同样的团队,KPI一变,产出结构全变。Qwen团队把这套逻辑搬进了梯度下降。
一个细节值得玩味。他们在论文里强调,测试模型"zero prior exposure to synthetic long-CoT data"。这是在回应社区对数据污染的敏感。长思维链数据现在成了稀缺资源,谁手里有高质量的合成数据,谁就有隐性优势。FIPO证明,算法本身可以部分替代这种优势。
另一个信号是开源策略。DAPO数据集是公开的,基座模型是公开的,算法细节也放出来了。这和某些实验室的"放结果、藏方法"形成对比。阿里似乎赌的是:推理infra的护城河不在单点技术,而在工程体系的整合速度。
训练稳定性那部分尤其实在。漂移过滤器的加入,说明团队真的在生产环境里踩过坑。"severe instabilities""training went off the rails"——这些描述来自血泪,不是理论推演。做过后训练的人都知道,算法 paper 上收敛的曲线,和集群里半夜报警的日志,中间隔着一百个工程 trick。
58%的AIME准确率不是终点。这个 benchmark 的设计偏向竞赛数学,和真实场景的复杂推理还有距离。但思考长度从4000到10000的跨越,意味着模型有能力维持更长的上下文一致性——这是通往多步规划、代码生成、长文档分析的门票。
Qwen团队没说的是:这个算法能不能泛化到其他任务?数学推理的结构化程度很高,奖励信号相对清晰。换成开放式写作或者多轮对话,前向影响的计算会不会爆炸?折扣因子的衰减速度需不需要任务自适应?
这些问题留给下一篇 paper。眼下的事实是,阿里在推理模型的训练动力学上,挖到了一个新的杠杆点。不是最大的杠杆,但是一个干净的、可复现的、不需要外部数据加持的杠杆。
行业层面的影响可能更微妙。FIPO降低了对长思维链合成数据的依赖,这会让数据壁垒稍微变薄一点。但前向扫描的计算成本,又把门槛抬高了一点——小团队跑不动,大集群才玩得起。最终是更集中还是更分散,取决于优化后的效率曲线落在哪个区间。
一个有趣的对比是DeepSeek的路线。R1-Zero-Math走纯强化学习,完全摒弃监督微调,结果在数学上很强,通用性存疑。FIPO则是改良派,承认GRPO的框架,但修补它的激励结构。两条路都在走,哪条能先摸到通用推理的门槛,明年这个时候应该能看清。
OpenAI的o1-mini被拿来当 benchmark,但没人知道它的训练细节。56%这个数字是公开报道的近似值,误差范围不明。FIPO的58%是在完全公开的配置下跑出来的,可复现性本身就是竞争力。
论文最后没有放豪言。团队只说FIPO"delivers comparable results" without auxiliary model,克制得不像一个打破长度纪录的工作。但这种克制或许正是信号——他们知道10,000 token不是终点,前面还有更硬的墙。
下一个问题是:当思考长度继续拉伸,模型的瓶颈会从"激励机制"转向什么?是上下文窗口的物理限制,还是人类对可解释性的容忍阈值?
热门跟贴