大模型的新战场在推理？——《推理模型综合测评报告 2025》深度解析 | 直播预告

InfoQ

2025-06-04 16:00 ·北京 ·优质互联网领域创作者

5 月 29 日，InfoQ 研究中心正式对外发布了《推理模型综合测评报告 2025》。在报告中，InfoQ 研究中心通过五大维度（逻辑推理、数学推理、多步推理、语言推理、幻觉控制），五大题型（判断、选择、填空、排序、开放题）的 300 道测试题组成的题库，对现有的八家主流推理模型进行了全面测评。

推理模型综合测评体系说明

在报告中，我们也对各个维度不同模型的表现进行了总结，o3 在数学推理和多步推理两项位居榜首，文心 X1 Turbo 则在幻觉控制和语言推理两项位居第一，Qwen3-235B-A22B 在逻辑推理维度表现最佳。

评测各维度 Top5 模型得分情况

而除了以上关于测评的内容，报告还对推理模型的两大技术前置因素，以及近期推理模型的一些变化趋势进行了整理和总结，以帮助广大开发者更好地推理模型的前世今生和未来走向。更多内容也欢迎各位读者点击「阅读原文」，下载完整报告进行阅读。

为了更好的向各位开发者朋友展现报告内容和测评结果，InfoQ 研究中心专门针对报告，设置了一场直播活动。在本次直播中，InfoQ 研究中心高级分析师崔白洁也将深入解读本次测评体系的设计思路，欢迎各位开发者伙伴点击文中「预约」按钮，锁定 6 月 6 日 20:00 的报告专场直播活动，获取直播提醒。

直播介绍

直播主题

大模型的新战场在推理？

——《推理模型综合测评报告 2025》深度解析

6 月 6 日 20:00-20:50

直播亮点

从两大技术前置因素出发，盘点推理模型的前世今生
300 道测试题实测 8 大主流推理模型，关键结果解读
三大方向，讨论推理模型的未来会走向何方？

直播观看渠道

点击下方「预约」按钮，预约 InfoQ 视频号直播

提问 / 互动方式

文末留言写下问题，或在直播中直接评论，主持人会在直播的 Q&A 环节进行集中解答。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴