中国软件评测中心联合中国移动研究院发布业界端侧通用大模型评测结果|中国移动研究院|中国软件|大模型|知名企业|软件评测

近期，中国软件评测中心联合中国移动研究院，依托“弈衡”通专大模型评测体系，共同制定面向端侧大模型的评测方法和指标体系，并选取业界多款主流端侧大模型开展评测。结果表明，部分端侧大模型可满足基本使用需求，但整体表现与云端大模型有一定差距，且用户体验存在较大提升空间。

当前，随着人工智能技术的不断进步，大模型已成为推动各行各业创新和发展的重要驱动力，根据应用场景及部署方式，大模型主要分为云端大模型和端侧大模型。根据大模型经验法则Scaling Law，大模型性能与参数规模正相关，目前，据可公开信息显示，头部大模型参数量以千亿级为主，且均为云端大模型，但存在算力成本高、隐私保护难、部署不灵活等问题。端侧大模型则可以直接调用端侧算力独立运行，无需额外算力成本；用户数据无需网络传输，减少了隐私泄露和信息安全风险；同时模型端侧部署灵活性高，便于根据用户偏好提供个性化服务。端侧大模型因其算力成本低、隐私安全性高、部署灵活等优势，已成为人工智能领域的重要发展方向，引起业界广泛重视，国内外多家公司及研究机构纷纷推出相关产品。

前期，中国软件评测中心联合中国移动研究院制定“弈衡”通专大模型“2-4-6”评测体系，包含两类评测任务、四种评测要素、六大评测维度。依托该体系，制定了面向端侧大模型的评测方法和指标体系，重点聚焦功能性、准确性和交互性等维度进行评估，涵盖文本理解、逻辑推理、学科知识、程序编写等多项能力，可充分验证典型场景下的真实体验。

本次评测从业界开放端侧大模型中，选取国内外11款主流产品，包括Google、Meta AI等发布的8款国外模型，以及阿里巴巴、面壁智能等发布的3款国内模型。参测模型参数量介于15亿至107亿之间，根据适配情况分别部署于Android、iOS手机平台，详细情况见表1。

本次评测选取业界端侧开源大模型，在IOS及Android手机环境安装部署，并检验适配性。IOS采用苹果系列手机，Android采用国产品牌手机，操作系统均为最新版本，评测期间采用断网方式确保为终端本地推理服务。采用业界主流评测数据集格式自主构建评测数据，对模型进行评测和结果评判分析。基于“弈衡”大模型评测体系，从准确性、完成率、时延、内容输出长度等指标进行综合能力打分。满分100分，参测大模型得分位于38—63分之间。其中，Solar-10.7B和Starling-7B得分高于55分，相对表现较好；Qwen2-1.5B、Phi-3-mini-128k和Neural Chat-7B 得分40分左右，整体表现一般。详细得分排名见图1。

▲图1 业界典型端侧大模型评测结果

评测结果表明：一是端侧大模型整体表现与云端大模型有一定差距，端侧大模型在数学推理、程序编写等方面表现较差，整体准确率与主流云侧大模型相差约30%；Qwen1.5-0.5B、Phi-3-mini等超半数参测模型仅支持单轮交互；部分参测模型响应速度慢，如Llama3-8B、Starling-7B等平均时延较主流云侧大模型高10倍以上，可用性较差。二是部分端侧大模型可满足基本使用需求，如Solar-10.7B、Llama3-8B等模型阅读理解、物理问题和常识问答等方面准确率可达70%以上，与主流云侧大模型差距不明显；Mistral-7B和Starling-7B等模型内容创作平均字数可达1000字以上，可基本满足应用需求。三是部分参测大模型的用户体验存在较大提升空间，如Llama-3-8B在推理过程中，偶发界面卡顿、终端发热大等问题。

下一步，中国软件评测中心联合中国移动研究院继续深化合作，携手并进，不断完善“弈衡”大模型评测体系，持续对业界大模型开展评测分析，洞察大模型技术发展趋势，为推动大模型技术进步和成熟应用贡献评测力量！

联系人：孙老师

联系方式：18500410430（同微信）

来源 | 人工智能场景化应用与智能系统测评工业和信息化部重点实验室

编辑 | 办公室