微软亚洲研究院的数学和人工智能研究团队于1月10日发布了一项新技术——rStar-Math,专门用于提升小语言模型解决数学问题的能力。与之前的 Phi-4 模型不同,rStar-Math 采用蒙特卡洛树搜索(Monte Carlo Tree Search)进行推理,模拟人类逐步解决问题的思维方式,将复杂问题分解成更小的部分逐步求解。

研究人员要求模型输出自然语言描述和 Python 代码形式的“思维链”步骤,并将自然语言作为 Python 代码注释,仅使用 Python 代码输出训练模型。通过训练一个“策略模型”生成数学推理步骤,并使用“过程偏好模型”(PPM)选择最有希望的解题步骤,这两个模型经过四轮“自我进化”互相改进,不断提升性能。

初始数据包括74万道公开的数学应用题及其解答,利用上述两个模型生成新的解题步骤。测试结果显示,应用 rStar-Math 技术后,Qwen2.5-Math-7B 模型的准确率从58.8%跃升至90.0%,Phi3-mini-3.8B 模型从41.4%提升到86.4%,分别比 OpenAI 的 o1-preview 模型高4.5%和0.9%。

研究团队计划在 GitHub 上公开 rStar-Math 的代码和数据,方便其他研究者使用和改进。

风险警告:本文根据网络内容由AI生成,内容仅供参考,不应作为专业建议或决策依据。用户应自行判断和验证信息的准确性和可靠性,本站不承担可能产生的任何风险和责任。内容如有问题,可联系本站删除。