确保先进人工智能安全的四种治理方法|政府

2026年1月，兰德公司发布了《确保先进人工智能安全的四种治理方法》（Four Governance Approaches to Securing Advanced AI）的报告。报告指出，随着人工智能技术尤其是一系列先进通用模型的迅猛发展，其对经济稳定、社会安全乃至国家战略带来的潜在风险日益引发政策界的高度关注。尽管部分领先企业已自愿承诺加强其系统的安全防护，但在激烈的市场竞争压力与各行其是的安防措施下，单纯依赖行业自我监管的有效性受到广泛质疑。与此同时，政府若直接干预，又可能面临抑制创新、抬高行业门槛、削弱本国竞争力的风险。研究系统性地提出并剖析了四种可用于加强先进人工智能系统开发者安全实践的治理路径，旨在为政府和产业界在安全与创新之间寻找审慎平衡提供决策参考。

一、人工智能安全治理的紧迫性与复杂性

人工智能，尤其是那些具有强大通用能力和潜在变革性影响的前沿模型，其安全性已超越传统网络安全范畴，关涉国家经济韧性、基础设施稳定乃至国际战略优势。这些系统若被窃取、滥用或恶意篡改，可能引发从大规模虚假信息蔓延、关键基础设施瘫痪到自主武器系统失控等一系列灾难性后果。然而，当前安全治理面临多重困境：一方面，市场竞赛驱使企业将大量资源倾注于能力提升而非安全加固，形成“速度优先于安全”的潜在惯性；另一方面，人工智能技术迭代迅速、系统复杂且黑箱特性突出，使得设计一套普适、有效且动态演进的安全标准极为困难。此外，治理对象涵盖从初创企业到科技巨头的多元主体，其规模、资源与风险等级差异显著，要求任何治理框架必须具备高度的适应性与比例性原则。因此，探索既能为高风险活动设定必要护栏，又能避免扼杀行业活力与技术进步的治理模式，成为当前政策制定的核心课题。

二、四种治理路径的核心架构与运行机制

为应对上述挑战，兰德报告提出了四种具象化的治理方案，每种方案均在领导主体、安全要求、合规验证与执行机制四个核心维度上呈现出不同设计。

第一种方案为“政府强制执行的人工智能安全标准”（SAFE-AI）。该模式旨在通过立法授权，在人工智能安全与安全研究所（AISsI）对开发高风险通用模型的企业施加强制性的安全标准，防范能带来国家级威胁主体的窃取与滥用。其安全要求兼具规定性与结果导向性，并依据模型训练算力等客观阈值进行风险分级，对最高风险级别施加最严格防护。合规通过审计、现场检查、独立政府红队测试及事件报告等多重手段验证，并辅以从纠正行动计划、分级行政处罚直至暂停运营和公开违规信息等一系列逐步升级的执法工具。此方案以最强的法律权威性和全覆盖的监管范围，提供了最高水平的安全保障预期，但同时也可能给行业带来最显著的合规成本与负担。

第二种方案聚焦于“政府机构使用导向的人工智能开发者授权计划”（SecureAI Authorization）。该方案并不寻求全面监管，而是通过修订联邦采购政策，将“安全设计”原则作为人工智能产品与服务获准用于政府系统的先决条件。在风险与授权管理计划框架下扩展设立专门办公室，根据模型处理数据的敏感度与决策影响程度划分风险等级并对应设计差异化的安全要求。开发者自愿参与，但一旦寻求政府合同则需接受第三方评估、持续监控并遵守相关安全计划。执法机制主要体现为授权的中止或撤销。此方案利用政府的庞大采购力作为杠杆，激励开发者提升安全水平，其自愿参与性质降低了对全行业的整体负担，但也可能因覆盖面有限而无法有效管控不与政府交易的潜在高风险实体。

第三种方案倡导建立“行业主导的人工智能安全认证体系”（FASSO）。该模式主张由前沿人工智能实验室、安全专家及政府观察员共同组成多方利益相关者联盟，制定一套自愿参与但具有约束力的安全认证标准。参与企业需注册模型、完成自评并接受第三方审计，认证结果纳入公开名录并接受持续监测。违规将面临整改、暂停认证乃至公开披露等后果。其优势在于安全要求由行业专家共同制定，更贴近技术现实与操作可行性，且行业主导能增强参与方的认同感与责任感。然而，其完全自愿的性质可能导致激励不足、参与率有限，且为吸引广泛加入，标准本身可能存在妥协，从而削弱整体安全效能。

第四种方案则强调“自我调节与强化政企协作”。该路径不建立正式合规制度，而是通过针对性的政府支持与服务来赋能行业提升安全实践。具体举措包括：由政府机构（如国家标准与技术研究院）牵头，会同产业界共同制定填补当前空白的技术安全标准；建立常态化的政企情报与信息共享机制，使企业能及时获知特定威胁与漏洞；政府安全机构（如国家安全局）为人工智能实验室提供红队评估与渗透测试服务，模拟高级持续性威胁；协助企业对敏感岗位人员进行背景审查，以降低内部威胁风险。此方案灵活性最高，几乎不施加强制性负担，但其安全推进效果完全取决于企业的自愿参与程度与市场自律，可能导致安全实践在行业内分布不均，难以系统性地应对最严峻威胁。

三、现行治理生态的不足与

框架实施的关键要素

尽管存在多种潜在路径，但当前美国在先进人工智能安全治理领域仍缺乏统一、权威且可执行的顶层框架。碎片化的自愿倡议、行业自发的安全投入以及尚在雏形中的政策讨论，共同构成了一幅充满不确定性的图景。借鉴核能、化工、医疗等高危行业的安全监管经验，任何有效的人工智能安全治理体系都必须夯实四大基础要素：一是明确的领导与制度能力，即授权特定机构具备足够的资源、专业知识和法定权威来设计与实施治理框架；二是清晰的安全要求，确立保护系统、数据和物理资产的具体预期，形成问责与监督的基础；三是健全的合规验证机制，包括审计、报告、独立测试等流程，以客观评估实体是否达标；四是有效的执行工具，通过包括处罚与利益剥夺在内的手段驱动合规。此外，比例性原则（使要求与实体的风险水平和运营能力相匹配）以及透明化的利益相关者参与，是确保治理框架兼具正当性、可接受性与实效性的关键指导原则。当前人工智能治理的讨论往往聚焦于原则宣言，而在扎实构建这些具体要素方面仍显滞后。

四、政策选择：在安全、合规与

行业负担间寻求平衡

四种治理路径并非互斥，但其侧重点与带来的权衡取舍截然不同。决策者需基于对国家面临风险的等级判断、市场自我调节能力的评估以及对创新生态影响的考量进行选择。若政策制定者认为前沿人工智能已构成明确且紧迫的灾难性风险，足以类比于国家级安全威胁，那么“政府强制执行的人工智能安全标准”模式提供了最强有力的应对工具。它能确保所有高风险开发者受到统一且高标准的约束，最大程度防御国家级对手。然而，其代价是可能带来较高的监管成本，并对中小型创新企业构成入场壁垒。

如果风险认知仍处于发展中，且首要目标是确保融入政府核心职能与国家安全系统的人工智能高度可靠，那么“政府使用导向的人工智能开发者授权计划”方案提供了更具针对性的抓手。它以较小的整体行业负担，通过经济利益引导，优先加固了最敏感应用场景的安全防线。

倘若认为行业自身具备足够的动力与专业知识来主导安全提升，且强制性监管可能弊大于利，“行业主导的人工智能安全认证体系”或“自我调节与强化政企协作”模式则提供了更具灵活性的选项。前者通过建立行业共识与声誉机制推动安全标准化，后者则通过政府提供“赋能服务”辅助市场力量发挥作用。这两种路径对创新的潜在抑制最小，但其安全成效的广度与深度也最不确定，高度依赖于行业自律的成熟度与广泛性。

五、构建敏捷、风险适配的

人工智能安全治理未来

人工智能技术的变革速度要求其安全治理框架必须具备前瞻性、适应性与韧性。面对先进人工智能系统带来的深远社会风险，被动应对与零敲碎补已不足以为训。政策制定者需在深入评估风险本质的基础上，尽快确定其治理范式的战略取向。是依托于国家强制力建立统一的高标准防线，还是利用政府采购权力进行重点牵引，或是主要依赖行业自律辅以政府赋能，不同的选择将塑造截然不同的产业生态与安全格局。

理想的道路或许并非简单择一而从，而是在明确核心风险管控底线（如防范国家级威胁与灾难性滥用）的基础上，采取分层、分类的混合治理策略。例如，可对极少数具备最强大能力、构成“前沿风险”的模型开发实施类似SAFE-AI的严格监管；同时，通过支持标准制定、扩大情报共享和红队服务等政企协作措施，全面提升整个行业的基础安全水位。通过这种组合拳，方能在坚决守护安全底线与悉心培育创新沃土之间，找到动态且可持续的平衡点，确保在驾驭人工智能巨大潜力的同时，有效管控其伴随的世代性风险。

免责声明：本文转自启元洞见。文章内容系原作者个人观点，本公众号编译/转载仅为分享、传达不同观点，如有任何异议，欢迎联系我们！

转自丨启元洞见

研究所简介

国际技术经济研究所（IITE）成立于1985年11月，是隶属于国务院发展研究中心的非营利性研究机构，主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题，跟踪和分析世界科技、经济发展态势，为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号，致力于向公众传递前沿技术资讯和科技创新洞见。

地址：北京市海淀区小南庄20号楼A座

电话：010-82635522

微信：iite_er

确保先进人工智能安全的四种治理方法

热搜

热门跟贴