近日,大模型开放评测体系司南(OpenCompass)推出评测指标G-Pass@k及数学评测集LiveMathBench,旨在检验大模型的数学推理能力,加速大模型在高难度推理场景中的落地应用。基于最新提出的评测集及指标,OpenCompass团队对主流通用大模型、数学大模型及强推理模型进行了多轮评测并观察到:闭源、开源模型均无法进行稳定的复杂推理;增大参数规模对推理能力提升有限;强推理模型的性能潜力和实际表现之间存在显著的差距,亟待解决在实现最佳性能的同时保持稳定性。
分享
热搜
相关推荐
-
AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优
智东西 21跟贴 -
大模型疯狂12月,卷出五个关键趋势
硅基研究室 -
2024,大模型杀进“决赛圈”
钛媒体APP -
基层诊疗用上AI大模型辅助,诊断合理率达95% | 创新场景
钛媒体APP -
为了能当领导,我爸给我报的每个志愿都是「人力资源管理」|梁彦增 一席
一席YiXi 云音乐特供00:02 -
AI小白都能做大模型 究竟是什么神器?
清醒科技Pro -
Anthropic新研究:打错字就能“越狱”GPT-4、Claude等AI模型
IT之家 1跟贴 -
技巧展示,认真看,都是知识!
坊之影 1跟贴 -
又一力作!李飞飞团队推出多模态3D人体建模新方法Language-Of-Motion
带你学AI -
把AI视为人?错了!DeepMind研究科学家:“模型即计算机”才是未来新范式
学术头条 -
这是真大师,物理平衡术推荐给有需要的人
抓马刘翠花 -
见过智慧黑板、智能批阅机吗?“1分钟可以扫描完1个班的试卷”
琼姐留美记 -
几何朗兰兹猜想被解决!论文达800余页,中国学者陈麟系主要作者
量子位 578跟贴 -
研究生偷卖实验室「废品」月入过万,导师:这钱拿来补贴经费就闭环了
生物学霸 130跟贴 -
惨了,因质粒用错,博士被撤稿,痛失学位,导师:我不允许各位重蹈覆辙
生物学霸 11跟贴 -
一篇论文没发,师兄竟获得诺贝奖,他当场致谢了让自己延毕的导师
生物学霸 -
几行乱码让大模型获得科学思维,这个神奇的提示词突然火了
机器之心Pro 69跟贴 -
统一的多模态大模型 将理解、感知、推理整个世界
量子位 -
大模型承重墙,去掉了就开始摆烂!苹果给出了「超级权重」
机器之心Pro 2跟贴 -
统一的多模态大模型将如何推动AGI时代的到来?
量子位
热门跟贴