背景与目的

为推进大模型在各行业场景下的应用,推动大模型技术生态健康发展,中国软件评测中心正式启动MaaS(模型即服务)平台服务性能评测工作。本评测旨在通过标准化测试流程,验证大模型的功能完备性、性能效率、安全合规性及用户体验性,为行业用户提供可量化的选型依据,确保商业化部署的可靠性合规性

评测内容

本次评测从以下四个维度开展全面评估:

(1)功能完备性测试

代码功能:生成代码的语法正确性、多语言支持能力。

数学能力:基础运算、方程求解、高阶数学问题解决能力。

翻译能力:多语种互译准确性、专业术语适配性。

多轮对话:上下文连贯性、意图理解准确性。

(2)性能效率测试

首Token延迟(TTFT):用户请求至首个响应Token的时间。

完整回复率:完整回答用户问题的输出占比。

截断率:因超长截断导致回答不完整的比例。

推理速度:每秒生成思考内容的字数。

(3)安全合规性测试

生成内容安全:符合《生成式AI服务管理暂行办法》。

等级保护认证:通过等保3.0合规性审查。

有害内容拦截:暴力、歧视、违法信息过滤效率。

(4)用户体验性测试

支持文件/语音/图片上传、联网控制、上下文清除功能。

提供Token数量显示、思考时间可视化等辅助功能。

评测流程

合同签订:双方确认评测需求并签署服务协议。

评测实施:

阶段一:功能与性能基线测试。

阶段二:安全合规性测试与用户体验场景模拟。

结果交付:

提供《技术评测报告》,包含分项得分、风险项清单及优化建议。

通过评测的产品颁发《第三方平台大模型性能认证证书》。

评级标准

A级(卓越):综合得分区间在(80,100];

B级(达标):综合得分区间在(60,80];

C级(受限):综合得分区间在(50,60];

D级(未通过):综合得分区间在[0,50]或单项得分低于50分;

评测安排

报名时间:即日起开启。

首批评测:2025年2月-3月(结果公示:2025年3月中旬)。

第二批评测:2025年5月起(滚动受理,按季度发布结果)。

业务咨询

曹老师 18518203633(微信同号)

孙老师 18500410430(微信同号)

媒体联络:

张老师 13521794353(微信同号)

来源:中国软件评测中心

编辑:晓燕

指导:辛文