加快DeepSeek行业应用落地：MaaS平台服务性能评测启动！

通信产业报

2025-03-01 07:12 ·北京 ·通信产业报官方网易号

一

背景与目的

为推进大模型在各行业场景下的应用，推动大模型技术生态健康发展，中国软件评测中心正式启动MaaS（模型即服务）平台服务性能评测工作。本评测旨在通过标准化测试流程，验证大模型的功能完备性、性能效率、安全合规性及用户体验性，为行业用户提供可量化的选型依据，确保商业化部署的可靠性与合规性。

二

评测内容

本次评测从以下四个维度开展全面评估：

（1）功能完备性测试

代码功能：生成代码的语法正确性、多语言支持能力。

数学能力：基础运算、方程求解、高阶数学问题解决能力。

翻译能力：多语种互译准确性、专业术语适配性。

多轮对话：上下文连贯性、意图理解准确性。

（2）性能效率测试

首Token延迟（TTFT）：用户请求至首个响应Token的时间。

完整回复率：完整回答用户问题的输出占比。

截断率：因超长截断导致回答不完整的比例。

推理速度：每秒生成思考内容的字数。

（3）安全合规性测试

生成内容安全：符合《生成式AI服务管理暂行办法》。

等级保护认证：通过等保3.0合规性审查。

有害内容拦截：暴力、歧视、违法信息过滤效率。

（4）用户体验性测试

支持文件/语音/图片上传、联网控制、上下文清除功能。

提供Token数量显示、思考时间可视化等辅助功能。

三

评测流程

合同签订：双方确认评测需求并签署服务协议。

评测实施：

阶段一：功能与性能基线测试。

阶段二：安全合规性测试与用户体验场景模拟。

结果交付：

提供《技术评测报告》，包含分项得分、风险项清单及优化建议。

通过评测的产品颁发《第三方平台大模型性能认证证书》。

四

评级标准

A级（卓越）：综合得分区间在(80,100]；

B级（达标）：综合得分区间在(60,80]；

C级（受限）：综合得分区间在(50,60]；

D级（未通过）：综合得分区间在[0,50]或单项得分低于50分；

五

评测安排

报名时间：即日起开启。

首批评测：2025年2月-3月（结果公示：2025年3月中旬）。

第二批评测：2025年5月起（滚动受理，按季度发布结果）。

六

业务咨询

曹老师 18518203633（微信同号）

孙老师 18500410430（微信同号）

媒体联络：

张老师 13521794353（微信同号）

来源：中国软件评测中心

编辑：晓燕

指导：辛文

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴