但同一节也做了另一件看似与上述表述相矛盾的事。它搭建了一套强制性制度真正落地所需的基本框架:建立一项政府基准,能够实际衡量一个模型何时跨过危险门槛,尤其是在网络安全领域。这为前沿模型审查提供了坚实基础,但政府又因不愿让其具有约束力,削弱了这一基础的作用。
不过,无论是特朗普在5月签署仪式前数小时撤回的草案——据称原因是担心这会拖慢美国企业与海外人工智能行业竞争的速度——还是他本周签署的版本,都没有把部署前审查框架设为强制要求。两者之间的变化只是程度上的差别,主要体现在部署前审查的时限上:第3节将审查窗口从90天缩短为30天;同时,第3节新增了明确条款,说明该行政令并未设立强制机制。
诚然,美国食品药品监督管理局的模式并不完全适用于前沿人工智能,也就是处于技术最前沿、能力最强的大规模模型。科学家可以测试一种配方已知、性质明确的单一药物化合物。人工智能则不同,其底层系统——由数十亿个被称为“权重”的数值参数构成,用来编码模型学到的内容——会因微调方式、用户如何与其互动,包括恶意“提示词注入”,以及它在线连接了哪些其他系统,而表现出不同的行为。
前沿人工智能可能带来的许多危害,目前仍属未知。用于衡量模型是否会造成危害的测试,也就是“基准测试”,在一些领域仍存在争议,且发展并不成熟。
但有一类风险的基准测试相对更成熟,也更有现实可行性,那就是网络安全。判断一个模型是否能够发现并利用软件漏洞,是一个相对客观的问题。漏洞要么存在且被模型利用了,要么不存在,或模型未能利用它。正是这种可以检验的标准,能够成为监管门槛的基础。与判断一个模型是否可能帮助制造生物武器,或诱导自残等问题相比,这类标准的争议要小得多。
自愿制度无法完成安全制度最关键的一项任务:约束那些不愿受约束的开发者。眼下愿意合作的实验室,似乎目前仍倾向于配合。自愿框架可以覆盖这些机构,但对于那些行事鲁莽、受外国对手控制,或未来改变主意、不再愿意与美国政府合作的实验室,它并没有给出应对办法。
公众获得的安全保障,取决于制度能否约束那些不会自愿加入的行为者,以及今天愿意加入、明天却可能退出的行为者。模型能力及其相应风险难以通过基准测试准确衡量,这正是强制性事前审批看上去难以操作的原因。而在网络安全领域,这份行政令实际上已悄然解决了这个问题。剩下的已不是技术障碍,而是政治选择。政府画对了地图,却停在了起点。
热门跟贴