5 月 29 日,InfoQ 研究中心正式对外发布了《推理模型综合测评报告 2025》。在报告中,InfoQ 研究中心通过五大维度(逻辑推理、数学推理、多步推理、语言推理、幻觉控制),五大题型(判断、选择、填空、排序、开放题)的 300 道测试题组成的题库,对现有的八家主流推理模型进行了全面测评。

推理模型综合测评体系说明

在报告中,我们也对各个维度不同模型的表现进行了总结,o3 在数学推理和多步推理两项位居榜首,文心 X1 Turbo 则在幻觉控制和语言推理两项位居第一,Qwen3-235B-A22B 在逻辑推理维度表现最佳。

评测各维度 Top5 模型得分情况

而除了以上关于测评的内容,报告还对推理模型的两大技术前置因素,以及近期推理模型的一些变化趋势进行了整理和总结,以帮助广大开发者更好地推理模型的前世今生和未来走向。更多内容也欢迎各位读者点击「阅读原文」,下载完整报告进行阅读。

为了更好的向各位开发者朋友展现报告内容和测评结果,InfoQ 研究中心专门针对报告,设置了一场直播活动。在本次直播中,InfoQ 研究中心高级分析师崔白洁也将深入解读本次测评体系的设计思路,欢迎各位开发者伙伴点击文中「预约」按钮,锁定 6 月 6 日 20:00 的报告专场直播活动,获取直播提醒。

直播介绍

直播主题

大模型的新战场在推理?

——《推理模型综合测评报告 2025》深度解析

6 月 6 日 20:00-20:50

直播亮点

  • 从两大技术前置因素出发,盘点推理模型的前世今生

  • 300 道测试题实测 8 大主流推理模型,关键结果解读

  • 三大方向,讨论推理模型的未来会走向何方?

直播观看渠道

点击下方预约」按钮,预约 InfoQ 视频号直播

提问 / 互动方式

文末留言写下问题,或在直播中直接评论,主持人会在直播的 Q&A 环节进行集中解答。