Light R1 大模型开源：12 块 H800 GPU，成本 7200 元|gpu|light|云计算费用|基准|推理|数学

360 智脑已推出了一种新的开源 AI 模型 Light-R1-32B。

相关代码和资料如今放在 Hugging Face （https://huggingface.co/qihoo360/Light-R1-32B）上，使用宽松的 Apache 2.0 许可证，企业和研究人员可以免费使用、部署、微调或修改，即便出于商业目的。

在第三方美国邀请数学考试（AIME）基准测试中，320 亿个参数（模型设置数量）模型的性能超过了参数数量相似、甚至更多的开源模型，比如 DeepSeek-R1-Distill-Llama-70 和 DeepSeek-R1-Distill-Qwen-32B。这项基准测试含有 15 个为极高阶学生设计的数学问题，分配的时间限制为 3 小时。

该模型由 Liang Wen, Fenrui Xiao, Xin He, Yunke Cai, Qi An, Zhenyu Duan, Yimin Du, Junchen Liu, Lifu Tang, Xiaowei Lv, Haosheng Zou, Yongchao Deng, Shousheng Jia, Xiangzheng Zhang 共同开发，在竞技数学基准测试中的表现超过了以前的开源替代模型。

令人难以置信的是，这些研究人员在不到 6 小时的时间里，在 12 块英伟达 H800 GPU 上完成了模型的训练，估计总成本仅为 1000 美元（7244 元人民币）。

这使得 Light-R1-32B 成为开发高性能数学专业 AI 模型的最方便、最实用的方法之一。

然而重要的是要记住这点，该模型使用阿里巴巴的开源 Qwen 2.5-32B-Instruct 的变体来训练，后者本身的前期训练成本要高得多。

除了模型外，研究团队还发布了训练数据集、脚本和评估工具，为构建面向数学的 AI 模型提供了一套透明、易于访问的框架。

Light-R1-32B 是在竞争对手推出类似模型（比如微软 Orca-Math）之后问世的。

新的数学之王崛起

为了帮助 Light-R1-32B 处理复杂的数学推理，研究人员使用一个不具备长思维链（COT）推理能力的模型进行了训练。他们运用了基于课程的监督微调（SFT）和直接偏好优化（DPO）来完善其解决问题的能力。

进行评估时，Light-R1-32B 在 AIME24 上和 AIME25 上分别获得 76.6分和 64.6分，超过了 DeepSeek-R1-Distill-Qwen-32B，后者分别获得 72.6分和 54.9分。

这一改进表明，基于课程的训练方法有效地提高了数学推理能力，即便使用最初缺乏长思维链的模型进行训练也是如此。

公平的基准测试

为了确保公平的基准测试，研究人员对照常见的推理基准测试（包括AIME24/25、MATH-500和GPQA Diamond）对训练数据进行了净化处理，以防数据泄露。

他们还使用 DeepScaleR-1.5B 预览版实施了基于难度的响应过滤，最终构成了一个 76000 个示例的数据集，用于监督微调的第一阶段。第二个更具挑战性的数据集（含有3000个示例）进一步提升了性能。