生成式人工智能服务安全标准的中国方案|人工智能服务|安全标准|网络安全技术

核心提示：从《生成式人工智能服务管理暂行办法》，到《网络安全技术生成式人工智能服务安全基本要求（征求意见稿）》，在人工智能治理成为攸关全人类命运重要课题的大背景下，我们通过积极探索日渐形成生成式人工智能服务安全标准的中国方案，为生成式人工智能服务领域安全管理提供了重要的规范支持。

作者|马永强

责编|薛应军

正文共3098个字，预计阅读需9分钟▼

5月23日，全国网络安全标准化技术委员会发布国家标准《网络安全技术生成式人工智能服务安全基本要求（征求意见稿）》（以下简称《安全标准》），向社会公开征求意见。意见反馈截止时间为2024年7月22日。这标志着我国在生成式人工智能安全监管领域国家标准日渐形成。

近年来，随着生成式人工智能技术日益成熟，从ChatGPT的发布、美国人工智能公司OpenAI核心人员离职，到Sora、GPT-4o等高性能多模态模型的涌现，生成式人工智能服务正在引领新一轮的生产力革命浪潮。在此背景下，人工智能治理成为攸关全人类命运的重要课题，我们积极探索日渐形成生成式人工智能服务安全标准的中国方案。

生成式人工智能服务监管框架与配套安全标准

2023年7月，国家互联网信息办公室联合国家发展改革委等七部门颁布《生成式人工智能服务管理暂行办法》（以下简称《暂行办法》），促进生成式人工智能健康发展和规范应用，维护国家安全和社会公共利益，保护公民、法人和其他组织的合法权益。《暂行办法》明确生成式人工智能应用的全过程监管框架，初步解决提供生成式人工智能服务的合规性问题；在互联网信息服务领域既有算法备案制度的基础上，进一步确立生成式人工智能服务的安全评估备案制度。该制度成为人工智能服务提供者开展生成式人工智能服务的前置性要求。它要求具有舆论属性或者社会动员能力的生成式人工智能服务在上线提供服务前应开展安全评估，并向相关部门备案，以增强相关服务的安全性、可解释性及可问责性。

为落实针对生成式人工智能服务的潜在风险进行事前评估的要求，实操层面必须就相关生成式人工智能服务安全的具体要求、评估参数、评估标准进行细化解释。为进一步明确相关安全要求和评估要点，全国网络安全标准化技术委员会于2024年3月1日发布技术文件《网络安全技术生成式人工智能服务安全基本要求》（以下简称《安全要求》），在原则性要求层面为生成式人工智能服务的安全问题提供细化指引。该文件在监管部门和企业领域普遍实践后，《安全标准》应运而生。

《安全标准》是继《网络安全技术生成式人工智能预训练和优化训练数据安全规范》《网络安全技术生成式人工智能数据标注安全规范》之后，全国网络安全标准化技术委员会向社会公开征求意见的第三个配套《暂行办法》的国家标准性文件。该国家标准旨在对《暂行办法》中的安全要求进行标准层面的细化，包含生成式人工智能服务研发过程中的网络安全、数据安全、个人信息保护，以及面向服务过程中的应用场景安全风险、软硬件环境安全风险、生成内容安全风险、权益保障安全风险等诸多方面。此外，全国信息安全标准化技术委员会于2023年8月发布的《网络安全标准实践指南——生成式人工智能服务内容标识方法》也为生成式人工智能服务领域的安全管理提供规范支持。

生成式人工智能服务安全国家标准的具体要求

《安全标准》规定了生成式人工智能服务在训练数据安全、模型安全、安全措施等方面的要求，并给出了安全评估的参考要点。我国的国家标准包括强制性标准和推荐性标准，本次征求意见的《安全标准》系推荐性标准，不要求在应用层面强制执行，是旨在促进行业发展的引领性规范。该标准适用于以交互界面、可编程接口等形式向公众提供生成式人工智能服务的组织或个人，可用于指导生成式人工智能服务提供者开展安全评估，亦可为相关主管部门提供参考。

《安全标准》在内容上承袭此前的《安全要求》，并在用语和体例上进行了规范化。其主要亮点是，充分尊重产业界的发展需求，贯彻我国对生成式人工智能产业包容审慎、鼓励创新的治理理念，通过对相关安全风险的精细化认定、场景式拆解、全流程覆盖，为生成式人工智能服务的安全评估给出了具有可操作性的检验框架，并提供了充分的量化指标。该检验框架涵盖从数据采集、模型训练到服务提供的各个环节，高度重视数据来源安全和内容安全、模型安全及服务的透明度和稳定性。

在训练数据安全要求方面，《安全标准》主要对数据来源安全、数据内容安全与数据标注安全进行规范，要求确保数据内容中违法不良信息不得超过5%，数据来源可追溯，并要求在训练前对全部数据进行过滤，去除违法不良信息。同时，对标注人员进行安全培训和考核，确保标注规则的安全性和标注内容的准确性。

在模型安全要求方面，《安全标准》对模型训练、模型输出、模型的监测更新升级、软硬件环境等方面作了规定，强调应关注生成内容的安全性，定期对模型进行安全审计；应采取技术措施持续提高生成内容的准确性和可靠性，对不当问题应拒绝回答；应持续监测模型输入内容，建立监测测评和模型应急管理措施；应制定安全管理策略，及时对供应链安全进行评估，并将模型训练环境与推理环境隔离，避免数据泄露、不当访问等安全事件。

在安全措施要求方面，《安全标准》从服务适用范围、服务透明度、用户输入信息收集、接受投诉举报、服务稳定性等方面制定了详细标准，要求对算法局限性、模型概要、个人信息用途等服务信息进行公开披露，提供投诉举报途径，设定处理规则和时限，并建立备份机制和恢复策略，重点确保业务的连续性。

生成式人工智能服务安全国家标准的完善空间

《安全标准》的出台为生成式人工智能服务的安全问题提供坚实的治理基础，但考虑到人工智能技术发展的不确定性，模型安全层面的标准还可以进一步完善。

目前，《安全标准》并未明确要求使用第三方基础模型提供服务需经有关主管部门备案。这意味着若使用如Llama 3等基础性开源模型进行微调后，向国内用户提供服务时无需再进行备案。这不仅符合相关领域技术创新的现实需要，更是体现了对开源软件领域开放理念的尊重，有利于最大限度地鼓励我国相关开源生态的发展。但需要注意的是，在涉及基础性开源模型时，此类开源模型本身可能被恶意利用，此时会连带对相关服务提供者所提供的服务产生威胁。因此，可以考虑在安全标准里增加基础性开源模型的安全要求模块，以增强对相关基础性开源模型的风险防范。在实践中可能存在的误区是，把开源和安全直接画上等号，或认为基础性开源模型的安全风险更低。实际上，由于缺乏足够的外部安全监管，基础性开源模型反而可能更容易被用来对抗审查，产生重大安全风险。因此，应建立更严格的基础性开源模型安全评估机制。

此外，《安全标准》仍主要是针对当前弱人工智能阶段的技术发展作出的合规要求，还应对未来一段时期内的潜在风险予以关注。生成式人工智能的安全风险不仅包括短期风险，还包括其可能带来的中长期危险。鉴于相关技术演化的不确定性和发展的迅猛态势，还需密切关注通用人工智能阶段的风险，以及生成式人工智能可能被用于从事严重犯罪行为的风险。例如，利用人工智能进行恶意软件编写、利用生成式人工智能制造化学武器或生物武器等。当然，这些中长期标准的量化，还需要在实操层面进一步研讨。

总而言之，《安全标准》为生成式人工智能服务提供了清晰的合规指导和可量化的检验框架，有利于实现促进创新与保障安全的平衡，有助于在安全可控的前提下促进生成式人工智能在各个关键领域的应用转化。然而，模型安全层面的标准仍存在完善空间。《安全标准》作为对人工智能安全要求的具体落实，将有利于为解决全球范围内各类生成式人工智能安全问题贡献独具特色的中国方案。

（作者单位：大连海事大学法学院）