近日,大模型开放评测体系司南(OpenCompass)推出评测指标G-Pass@k及数学评测集LiveMathBench,旨在检验大模型数学推理能力,加速大模型在高难度推理场景中的落地应用。基于最新提出的评测集及指标,OpenCompass团队对主流通用大模型、数学大模型及强推理模型进行了多轮评测并观察到:闭源、开源模型均无法进行稳定的复杂推理;增大参数规模对推理能力提升有限;强推理模型的性能潜力和实际表现之间存在显著的差距,‍亟待解决在实现最佳性能的同时保持稳定性。