360 智脑已推出了一种新的开源 AI 模型 Light-R1-32B。
相关代码和资料如今放在 Hugging Face (https://huggingface.co/qihoo360/Light-R1-32B)上,使用宽松的 Apache 2.0 许可证,企业和研究人员可以免费使用、部署、微调或修改,即便出于商业目的。
在第三方美国邀请数学考试(AIME)基准测试中,320 亿个参数(模型设置数量)模型的性能超过了参数数量相似、甚至更多的开源模型,比如 DeepSeek-R1-Distill-Llama-70 和 DeepSeek-R1-Distill-Qwen-32B。这项基准测试含有 15 个为极高阶学生设计的数学问题,分配的时间限制为 3 小时。
该模型由 Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang 共同开发,在竞技数学基准测试中的表现超过了以前的开源替代模型。
令人难以置信的是,这些研究人员在不到 6 小时的时间里,在 12 块英伟达 H800 GPU 上完成了模型的训练,估计总成本仅为 1000 美元(7244 元人民币)。
这使得 Light-R1-32B 成为开发高性能数学专业 AI 模型的最方便、最实用的方法之一。
然而重要的是要记住这点,该模型使用阿里巴巴的开源 Qwen 2.5-32B-Instruct 的变体来训练,后者本身的前期训练成本要高得多。
除了模型外,研究团队还发布了训练数据集、脚本和评估工具,为构建面向数学的 AI 模型提供了一套透明、易于访问的框架。
Light-R1-32B 是在竞争对手推出类似模型(比如微软 Orca-Math)之后问世的。
新的数学之王崛起
为了帮助 Light-R1-32B 处理复杂的数学推理,研究人员使用一个不具备长思维链(COT)推理能力的模型进行了训练。他们运用了基于课程的监督微调(SFT)和直接偏好优化(DPO)来完善其解决问题的能力。
进行评估时,Light-R1-32B 在 AIME24 上和 AIME25 上分别获得 76.6分和 64.6分,超过了 DeepSeek-R1-Distill-Qwen-32B,后者分别获得 72.6分和 54.9分。
这一改进表明,基于课程的训练方法有效地提高了数学推理能力,即便使用最初缺乏长思维链的模型进行训练也是如此。
公平的基准测试
为了确保公平的基准测试,研究人员对照常见的推理基准测试(包括AIME24/25、MATH-500和GPQA Diamond)对训练数据进行了净化处理,以防数据泄露。
他们还使用 DeepScaleR-1.5B 预览版实施了基于难度的响应过滤,最终构成了一个 76000 个示例的数据集,用于监督微调的第一阶段。第二个更具挑战性的数据集(含有3000个示例)进一步提升了性能。
训练后,该团队合并了 Light-R1-32B 的多个训练版本,获得了额外的性能提升。值得注意的是,尽管该模型专门面向数学,但它在科学推理任务(GPQA)上保持了很强的泛化能力。
企业如何受益?
Light-R1-32B 是采用 Apache 许可证 2.0 发布的,这种宽松的开源许可证便于用户免费使用、修改和商业部署,不需要开放衍生作品的源代码。这使得它对于希望为专有应用集成或定制模型的企业、AI 开发人员和软件工程师颇有吸引力。
该许可证还包括免版税的全球专利授权,降低了企业的法律风险,同时减少了专利纠纷。企业可以在商业产品中自由部署 Light-R1-32B,在全面控制其技术创新的同时,受益于开放透明的 AI生态系统。
对于首席执行官、首席技术官和 IT领导者来说,Apache 2.0 确保了成本效率、不必依赖供应商,消除了许可费以及对专有 AI 解决方案的限制性依赖。AI 开发人员和工程师可以灵活地微调、集成和扩展模型,不受任何限制,使其成为专业数学推理、研究和企业AI应用的理想选择。
然而,由于许可证不提供保修或责任保障,组织在重要环境中部署 Light-R1-32B之前应该进行自己的安全、合规和性能评估。
低成本训练的透明度和针对解决数学问题进行优化
研究人员强调,Light-R1-32B 提供了一种经过验证的、具有成本效益的方法,可以在专门领域训练强大的长思维链模型。
他们向社区分享了方法、训练数据和代码,旨在降低高性能 AI开发的成本障碍。展望未来,他们计划探究强化学习(RL),以进一步提高该模型的推理能力。
Github:https://github.com/Qihoo360/Light-R1?tab=readme-ov-file
热门跟贴