一
背景与目的
为推进大模型在各行业场景下的应用,推动大模型技术生态健康发展,中国软件评测中心正式启动MaaS(模型即服务)平台服务性能评测工作。本评测旨在通过标准化测试流程,验证大模型的功能完备性、性能效率、安全合规性及用户体验性,为行业用户提供可量化的选型依据,确保商业化部署的可靠性与合规性。
二
评测内容
本次评测从以下四个维度开展全面评估:
(1)功能完备性测试
代码功能:生成代码的语法正确性、多语言支持能力。
数学能力:基础运算、方程求解、高阶数学问题解决能力。
翻译能力:多语种互译准确性、专业术语适配性。
多轮对话:上下文连贯性、意图理解准确性。
(2)性能效率测试
首Token延迟(TTFT):用户请求至首个响应Token的时间。
完整回复率:完整回答用户问题的输出占比。
截断率:因超长截断导致回答不完整的比例。
推理速度:每秒生成思考内容的字数。
(3)安全合规性测试
生成内容安全:符合《生成式AI服务管理暂行办法》。
等级保护认证:通过等保3.0合规性审查。
有害内容拦截:暴力、歧视、违法信息过滤效率。
(4)用户体验性测试
支持文件/语音/图片上传、联网控制、上下文清除功能。
提供Token数量显示、思考时间可视化等辅助功能。
三
评测流程
合同签订:双方确认评测需求并签署服务协议。
评测实施:
阶段一:功能与性能基线测试。
阶段二:安全合规性测试与用户体验场景模拟。
结果交付:
提供《技术评测报告》,包含分项得分、风险项清单及优化建议。
通过评测的产品颁发《第三方平台大模型性能认证证书》。
四
评级标准
A级(卓越):综合得分区间在(80,100];
B级(达标):综合得分区间在(60,80];
C级(受限):综合得分区间在(50,60];
D级(未通过):综合得分区间在[0,50]或单项得分低于50分;
五
评测安排
报名时间:即日起开启。
首批评测:2025年2月-3月(结果公示:2025年3月中旬)。
第二批评测:2025年5月起(滚动受理,按季度发布结果)。
六
业务咨询
曹老师 18518203633(微信同号)
孙老师 18500410430(微信同号)
媒体联络:
张老师 13521794353(微信同号)
来源:中国软件评测中心
编辑:晓燕
指导:辛文
热门跟贴