近日,智慧教育国家新一代人工智能开放创新平台携手暨南大学、北京师范大学、华东师范大学、西安交通大学以及香港城市大学,共同推出了大模型数学能力测评基准MathEval,并公布了相应的测评结果。经过激烈的竞争,学而思旗下的九章大模型获冠军。
据悉,本次评估全方位地评测了大模型在不同阶段、难度数学领域的解题能力。学而思九章大模型的表现不仅彰显了其在人工智能教育技术领域的创新精神,更进一步明确了推动人工智能教育技术发展的决心。
随着大模型技术的不断精进和广泛应用,其在数学领域的价值日益凸显,涵盖了直接解题、数据分析、学术研究以及辅助教学等多个关键环节。然而,行业一直缺少一套全面而专业的评估体系。正是在这样的背景下,MathEval应运而生,其专门针对大模型在数学领域的能力进行深度测评,为技术的创新与应用提供了重要的参考。
不过,大模型的数学能力评估绝非易事,每个大模型都有其独特的Prompt模板和答案格式,因而评估需要处理来自不同数据集的字段。为了实现对这些思维模式各异的大模型进行公平、一致的测试与比较,评测标准的制定显得尤为关键。我们需要从大模型给出的答案中,精准地提取出可供进一步分析比较的信息,这无疑对专业知识和技术要求极高。哪怕微小的抽取规则调整,都可能对最终的评测结果产生深远影响。
MathEval平台近期对包括不同版本在内的30个大模型进行了详尽的测试,其专业团队更是巧妙地利用GPT-4大模型辅助完成答案的提取与匹配工作,从而显著降低了传统规则评测可能带来的误差。经过严格的评测,学而思九章大模型在整体表现良好,也预示着其推动人工只能教育发展的潜力。
热门跟贴