检验大模型数学推理能力，司南发布全新评测指标与评测集

界面新闻

2024-12-25 23:05 ·上海

近日，大模型开放评测体系司南（OpenCompass）推出评测指标G-Pass@k及数学评测集LiveMathBench，旨在检验大模型的数学推理能力，加速大模型在高难度推理场景中的落地应用。基于最新提出的评测集及指标，OpenCompass团队对主流通用大模型、数学大模型及强推理模型进行了多轮评测并观察到：闭源、开源模型均无法进行稳定的复杂推理；增大参数规模对推理能力提升有限；强推理模型的性能潜力和实际表现之间存在显著的差距，‍亟待解决在实现最佳性能的同时保持稳定性。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴