推荐语
新一代的人工智能技术对既有法律体系带来了诸多挑战:要理解前沿技术的技术逻辑以及快速变化的业态,而且其对市场力量、社会治理和公共利益相继带来的冲击无法预知和穷举。基于事前判断形成的法律规则,需要适应不确定性,才能真正平衡发展和治理二元目标。
“徒法不足以自行”,在人工智能立法领域,政策制定者、学界和产业需要共同定义问题并逐步凝聚共识。产业研究在技术变化的前哨站,需要承担更多义务,并保证公允的视角和有效的观察。一是作为懂技术的研究者,应准确“翻译”技术逻辑和治理规则,实现技术-法律的“双向透明可解释”;二是作为治理的亲历者,从自身经验中回顾总结治理的“最佳实现路径”;三是作为产业中的实践者,应该陈述解释演进路径中的不确定性,帮助判断立法目标和举措的可行性,为发展和治理寻求“最大公约数”。
作者简介
周汉华(1964—),男,湖南衡山人,中国社会科学院法学研究所研究员。
摘 要:人工智能在我国已经形成信息内容管理与科技、产业发展两种不同立法定位。用信息内容管理定位人工智能,相当于将新质生产力纳入上层建筑管理,难免产生各种错配现象。为了体现人工智能法非对称性特点,需要将人工智能作为前沿科技和新质生产力来定位,在明确安全与发展基本原则的基础上,通过不同部门法的立改废释实现法治范式变革。既要清理、废止不利于人工智能发展的规定与做法,又要确立有利于推动人工智能安全与发展的观念、规范与制度。我国人工智能立法需要保持灵活性,小步快跑,避免“一刀切”立法造成难以挽回的负面影响。
关键词:人工智能立法;人工智能法;范式变革;非对称性
本文载《现代法学》2024年第5期
目 次
一、引言——互联网治理的两种定位
二、人工智能立法的两种不同定位
三、信息内容管理定位的问题分析
四、人工智能立法的科学定位
五、推动我国人工智能法的范式变革
一、引言——互联网治理的两种定位
我国全功能接入国际互联网三十年,互联网治理在不同时期形成两种不同的定位。
最初,互联网以其科技特点被我国接纳,实现与国际互联网连接。同时,从863计划开始,我国就从全球信息化发展大势认识到信息产业的重要性,从科技、产业发展来定位互联网,推动网络科技与信息产业在我国的高速发展。我国接入国际互联网以后的近二十年时间里,负责我国互联网治理的一直是科技或者产业管理机构。
2009年,随着智能手机开始在我国销售,我国逐步进入以“两微一端”为标志的移动互联网时代,互联网媒体化特征突显。面对生产关系与上层建筑的深刻变革,习近平总书记指出,“网络和信息安全牵涉到国家安全和社会稳定,是我们面临的新的综合性挑战”。2013年党的十八届三中全会以后,负责我国互联网治理的主要是意识形态管理机构,信息内容管理成为基本定位。经过十多年努力,网络综合治理体系不断建立健全,“网络生态持续向好,意识形态领域形势发生全局性、根本性转变”。
我国互联网治理所经历的两个历史阶段与两种不同定位,完整地投射到我国人工智能治理与立法之上,留下鲜明的历史印记。
二、人工智能立法的两种不同定位
新一代人工智能的快速发展,尤其是2022年底横空出世的ChatGPT,使如何定位人工智能及其立法成为无法回避的重大时代问题。受我国互联网治理体制的影响,实践中快速形成两种不同的立法定位。
(一)科技、产业发展定位及立法部署
2017年,作为世界上最早制定人工智能发展战略规划的国家之一,我国发布《新一代人工智能发展规划》(以下简称《发展规划》),从加快建设创新型国家和世界科技强国的角度进行系统部署,明确科技引领、系统布局、市场主导、开源开放四项原则,要求以提升新一代人工智能科技创新能力为主攻方向,发展智能经济,建设智能社会,维护国家安全。在部署推动人工智能科技与产业发展的同时,《发展规划》对人工智能作为颠覆性技术可能带来改变就业结构、冲击法律与社会伦理、侵犯个人隐私、挑战国际关系准则等问题有非常深刻的认识,明确人工智能法律法规、伦理规范和政策体系的“三步走”建设目标,列举了需要具体立法的领域。
《发展规划》发布之后,科技部、工信部、国家发改委、公安部、中科院、国家标准委等相继制定推动人工智能发展、防范人工智能风险的各种政策与规范性文件,如《促进新一代人工智能产业发展三年行动计划(2018—2020年)》《人形机器人创新发展指导意见》《国家车联网产业标准体系建设指南(智能网联汽车)》《科技伦理审查办法(试行)》等。上海、深圳制定了促进人工智能产业发展的地方性法规,浙江、广东、北京、成都、杭州等多地制定了促进人工智能研究与产业发展的政策性文件。国务院2023年、2024年连续两年将人工智能法草案列入年度立法计划。十三届、十四届全国人大常委会立法规划均将人工智能立法列入其中。
推动科技、产业发展定位的人工智能立法活动,体现出发展优先,以改革创新促发展,有效防范和化解风险的立法思路,也是当前各国对人工智能立法定位的共同做法。不过,由于新一代人工智能(《发展规划》称之为“自主智能”)仍然属于新生事物,没有现成经验可资借鉴,这类立法活动仍然处于萌芽和探索阶段。党的二十届三中全会决定要求,“完善推动新一代信息技术、人工智能等战略性产业发展政策和治理体系”,为人工智能立法和治理体系完善明确了方向。
(二)信息内容管理定位及立法
新一代人工智能尤其是ChatGPT所具备的内容生成能力,使得从互联网信息内容管理角度来界定和规范人工智能成为另一种立法思路。在ChatGPT推出之后不到一年,我国互联网治理主管部门迅速出台《生成式人工智能服务管理暂行办法》(以下简称为《暂行办法》),被学者称为世界上第一个生成式人工智能法律规范。迄今为止,尚未有任何其他主要国家从这个角度来定位和规范人工智能。通过与《中华人民共和国网络安全法》《中华人民共和国个人信息保护法》和《生成式人工智能服务安全基本要求》(以下简称《安全基本要求》)等法律和规范性文件衔接,《暂行办法》对我国人工智能的管理部门、执法主体、法律依据、执法程序、法律责任等予以明确,突出体现了生成内容全覆盖、生成过程全流程管理两大特点。
按照《暂行办法》第2条,利用生成式人工智能技术向我国境内公众提供生成文本、图片、音频、视频等内容的服务均属于其适用范围。2023年4月发布的《暂行办法(征求意见稿)》第6条规定,利用生成式人工智能产品向公众提供服务前,应当向国家网信部门申报安全评估,并履行算法备案和变更、注销备案手续。这一规定体现了将生成式人工智能服务提供者作为信息内容生产者管理的基本思路。这一条经修改后成为《暂行办法》第17条,并加上一个申报安全评估和备案的前提条件——“具有舆论属性或者社会动员能力”。但是,第17条恰恰说明不具备前提条件的人工智能服务仍然在该规章适用范围内,只是不需要申报安全评估和备案。由于舆论属性或者社会动员能力的标准与范围均具有一定的模糊性,目前大模型备案实践中,是否需要备案,需要与主管部门咨询沟通,面向公众的大模型均可能被认为具有舆论属性或者社会动员能力。
我国对于互联网信息内容有成熟的管理经验,《暂行办法》将预训练、优化训练等训练数据处理活动纳入管理范围,构筑事前、事中、事后全流程管理的整套制度,包括法治与其他手段并用、部门分工负责、分类分级监管、社会共治、严格平台责任、注重未成年人保护、强化安全评估与备案、违法内容处置、加强对境外服务的管理、严格法律责任追究等。尽管《暂行办法》囿于立法权限只能要求大模型安全评估和算法备案,但《安全基本要求》通过严格的规定,实际上使安全评估成为事实上的事前审批。并且,《安全基本要求》将管理环节从应用向研发延伸,比以往的全流程管理链条更长。比如,面向特定语料来源进行采集之前与之后,应当对该来源语料进行安全评估或核验,语料内容中含违法不良信息超过5%的,不应采集该来源语料或使用该语料进行训练;如需基于第三方基础模型提供服务,应使用已经主管部门备案的基础模型等。
科技、产业发展定位的现行规定主要是鼓励类、促进类柔性政策文件,高层级立法尚未启动。相比之下,《暂行办法》已经形成从法律、规章到技术文件一整套较为完备的规范体系,对相关主体更有现实意义和影响力。
三、信息内容管理定位的问题分析
(一)信息内容管理定位的由来
ChatGPT出现前后,国外出现的几起深度伪造名人的网络事件,引发各界高度关注。《暂行办法(征求意见稿)》发布前后,法学界较为密集地发表了一批讨论信息内容与意识形态安全方面的研究论文,这些论文的关注重点与之前对人工智能生成内容的研究有明显的差异。
有学者担心,“由于大模型具有的重大影响及其本身难以克服的局限性,可能会给信息内容治理带来显著风险”。有学者忧虑,“以ChatGPT为代表的生成式人工智能基于西方价值观和思维导向建立,其回答也通常迎合西方立场和喜好,可能导致意识形态渗透”。有学者认为,人工智能生成内容的主要风险“很大程度上来源于生成式人工智能被用于‘深度伪造’的能力”。有学者强调,“生成式人工智能可以通过其强大的算力合成假文章、生成假新闻等制造各种事实性错误,此外,不法人员会通过利用深度合成技术生成的虚假信息,来实施侮辱诽谤、造谣传谣、侵犯个人隐私甚至是通过深度合成技术仿冒他人实施诈骗等行为,严重扰乱网络传播秩序和社会秩序,这些因人工智能生成内容导致的滥用风险给当前的网络治理工作带来了极大的困难”。有学者断言,“ChatGPT等生成式人工智能在掌握先进技术基础上诱发了一系列辐射广泛、渗透全面、不易掌控的意识形态风险”。
对于类似研究结论,已经有学者指出,有关风险的研究与预测“大多还是停留于猜想和假设阶段,尚未实际发生,关于这些风险的发生概率同样未有定论”。其实,如果将我国对境外大模型的管理制度纳入考虑,很多悲观预测基本是出于想象。在大是大非问题上,国内大模型服务提供者不可能有半点疏忽。然而,学术界的这种担心,一定程度反映着全社会面对陌生事物的共同焦虑和不安,也直接催生了信息内容管理定位的形成。
(二)信息内容管理定位的问题分析
大模型的核心技术机制,在于通过从语料中学习到的规律(在数学上就是概率)来生成文字,“本质上,机器学习系统就是进行观察和预测的程序”。这样,就可能会生成符合规律(可能性)但不符合现实的内容,也就是这个领域常说的幻觉(Hallucination),而幻觉只能降低不能完全消除。加上受限于发展阶段、语料的数量与质量等各方面条件的限制,大模型发展之初生成内容的准确性、可靠性不可能尽善尽美,“一本正经地胡说八道”现象不可避免。
在我国,信息内容安全有比较明确的共识和边界,核心是意识形态安全,集中体现为《网络信息内容生态治理规定》所界定的20类“违法不良”信息。上海交通大学清源研究院生成式人工智能研究组2023年曾经评估国内八家国产大模型在生成内容真实性方面的表现,发现国产大模型在回答问题时存在捏造事实和过度迎合用户的现象。例如,虚构不存在的法律条款来回答用户的法律咨询,编造疾病的治疗方案来回复患者。有学者测评发现“ChatGPT更容易出现中文的常识性和知识性错误”,“ChatGPT可能编造虚假信息,并且其输出通常是真实信息与虚假信息的混合”。不过,仔细分析类似测评报告可以发现,测评中发现的这些问题绝大部分并不属于违法不良信息,而是技术能力不成熟导致的回答不正确现象。随着技术的成熟,技术本身就能够很大程度上解决这些问题。将大模型存在的准确性、可靠性问题全都归为信息内容风险,明显存在对风险程度的夸大。
由于网络信息来源的多样性,包括各种网络百科在内的网络信息,都是不同用户提供的。传统搜索引擎搜索出来的结果,并不能保证每条信息的准确性和可靠性,网络用户必须结合其他信息来源、生活常识等做出判断与选择。即使官方发布的信息,也只是“信息”,而并不是一定事实。对于大模型的准确性与可靠性,服务提供者有强烈的内在激励去不断完善,以形成自己的核心竞争力。人工智能预训练语言模型的发展呈指数型增强,参数规模的增长也呈现这种规律。双指数型增长意味着改进的速度非常快,“开始的时候增长速度很慢,几乎不被觉察,但是一旦超越曲线的拐点,它便以爆炸性的速度增长”。将对信息内容管理的特定要求延伸适用于所有生成内容,不但存在以偏概全的前提缺陷,也会抑制或者阻断服务提供者的内在激励。人工智能需要尽可能扩大语料来源和规模,在不断的训练中提高准确性和可靠性。《安全基本要求》适用于所有生成内容,生成过程全流程管理,会导致合法合规训练数据不全面甚至枯竭,更加远离提高准确性和可靠性的目标。在国际地缘政治格局发生巨大变化的背景下,这些只适用于国内大模型的管理措施,还会拉大国内外人工智能发展的差距。
信息内容管理完全不同于科技经济管理,将人工智能生成内容全部纳入信息内容管理,会进一步加剧近年来网络安全与信息化领域推荐性标准强制化、技术文件效力法律化、备案成为事实上的许可、法律救济途径收窄、不同管理措施叠加等一系列问题,影响营商环境和市场主体信心。由于人工智能科技创新的特点,由管理部门事前审批并不合适。管理重心全部聚焦于信息内容管理,还会使人工智能产生的大量新型风险游离于决策视野之外。因此,完善人工智能治理体系,必须按照党的二十届三中全会决定“完善生成式人工智能发展和管理机制”的要求,严格界定信息内容管理的领域,实现信息内容管理与科技经济管理的分离,以实现治理机制的精准化、科学化。
(三)生成式人工智能为违法不良信息治理带来前所未有的机会
如前所述,进入自媒体时代之后,人人都是“总编辑”,内容生产从传统的PGC(Professional-Generated Content,专业生产内容)向UGC(User-Generated Content,用户生产内容)转变,通过作为双边市场的平台进行传播。由于用户数量巨大,违法不良信息难以追溯,即使追溯到也很难问责。正是在这种背景下,我国设立网信部门并以平台主体责任为中心全面构建网络综合治理体系。然而,由于平台主体责任属于第三方责任,在流量经济的诱惑下,平台难免会以技术能力不足等各种理由打“擦边球”。
生成式人工智能的出现,使内容生产再次发生根本性变化,从UGC向AIGC(Artificial Intelligence Generated Content,人工智能生成内容)转变。由数量有限的大模型生成内容,某些特征更类似于重新回归到PGC时代,大模型成为“下一代网络入口”和“超级媒介”。大模型向使用者提供服务,不具有双边市场特征,不能再打“擦边球”。由于需要巨大的投入与技术能力支撑,基础大模型的数量会非常少,垂直应用大模型的数量会多一些。无论如何,相比于海量的自媒体用户,大模型服务提供者的数量有限,执法部门完全有能力监管这些主体并发现违法行为。并且,与小范围编造、传播违法不良信息难以被追究违法责任的自媒体用户相比,大模型生成违法不良信息一旦被追溯到会面临严重的违法后果,被追究直接责任而不是第三方责任。这样,大模型服务提供者会内生防范违法不良信息的强大动力,主动呵护大模型。即使大模型因为技术不成熟或者使用者的恶意诱导、攻击生成一些违法内容,受众只是终端使用者。终端使用者如果将生成内容加以传播,不但会受到现行网络综合治理体系的约束,还会自我暴露其恶意诱导、攻击行为。内容生产的这些根本性变化,为实现党的二十届三中全会决定提出的“推进新闻宣传和网络舆论一体化管理”提供了有利的外部条件。
从美国和欧盟的经验来看,新的管理方式主要是两种,一种是要求大模型对其生成内容加标识(水印),另一种是引入对抗式的“红队”机制。对大模型生成的图片、音频、视频、文本等添加标识,尊重大模型使用者和其他网络用户的知情权,使其知晓生成或者再次传播的生成内容属于合成信息而非事实本身,由此使生成内容带上“自净”功能。添加标识有助于执法部门对各种生成内容溯源并问责,维护市场秩序与社会秩序。对于大模型服务提供者而言,添加标识能提升生成内容的辨识度和市场影响力,并不完全是负担,也会有相应的收益。
2023年,美国总统拜登发布14110号人工智能行政命令,强调“本届政府会帮助开发有效的标识和内容溯源机制,以便美国人民能够判断内容什么时候是由人工智能生成的,什么时候不是。这些措施会奠定极其重要的基础,既解决人工智能带来的风险又不过分降低其好处”。欧盟在制定人工智能法过程中认识到,“各种人工智能系统会产生大量的合成内容,使人类越来越难以与人类生成的和真实的内容区分开来。这些系统的广泛可用性和不断增强的能力对信息生态系统的完整性和信任产生重大影响,增加错误信息和大规模操纵、欺诈、假冒和消费者欺骗的新风险”。为此,欧盟《人工智能法》第52条1a款规定,“生成合成类音频、图片、视频或者文本内容的人工智能系统(包括通用人工智能系统)提供者,应保证人工智能系统的输出以机器可读的格式进行标识并可发现为人工生成或控制”。第52条第3款规定,“生成或者控制面向公众发布、关涉公共利益事务文本的人工智能系统部署者应披露其文本为人工生成或控制”。另外,对于高风险的人工智能系统,欧盟《人工智能法》第49条还详细规定了对系统添加评估合格标识的要求。对生成内容添加标识,发挥其自净、溯源与激励等多重功能,是自媒体时代无法想象的治理机制。
“红队”机制类似于信息与网络安全领域的“白帽子黑客”,通过第三方机构或者执法部门的对抗式检测,验证大模型是否存在安全漏洞或者违法违规行为。不同于一般的行政监督检查,红队机制的目的在于改善大模型安全性能,增强对社会的透明度,消除公众顾虑,构建共治体系。因此,这一机制会广泛调动尽可能多的产业力量从社会视角加入到安全治理,构建开放而非封闭的治理体系,共同防范各种已知或者未知科技风险。美国总统行政命令的解释是,“人工智能‘红队’机制通常由专门的‘红队’采用对抗方式执行,以发现人工智能系统诸如有害或者歧视性产出、不可预测或者不理想的系统行为、局限或者与系统滥用有关的潜在风险等漏洞与弱点”。欧盟《人工智能法》附件IXa第二条第4款也规定“红队”对抗测试(red-teaming test)方式。对大模型进行持续的对抗式检测,这也是自媒体时代无法想象的治理机制。
按照政府监管理论和成功监管实践,不同监管手段之间存在很强的替代效应,监管手段并不是同时采用越多越好,更不宜将不同监管手段都叠加到一起使用。将可相互替代的监管手段叠加到一起使用,不但不能增加合力,反而可能会相互抵消。标识机制本质上属于以信息公开透明替代事前审批的现代监管手段,其作用机理是通过标识对服务提供者形成信息制约与社会共治机制,以替代政府机关的事前许可。最为典型的标识机制在一些国家的食品安全领域尤其是转基因食品领域较多采用。由于各界对食品健康短期及长期影响等问题存在争议,并不适宜采用事前许可机制,而是强制要求企业添加标识,提供重要信息,由消费者自己做出选择,出现食品安全问题后通过诸如追究大额损害赔偿责任等事后机制形成威慑。同样的道理,有些国家考虑到消费者认知水平、市场发育程度、执法资源与能力等因素,会在食品领域采用事前许可而不是标识机制。不能获得事前许可一概不得进入市场,相当于由政府机关代替消费者把关。
我国最近几年一直在引入和推行深度合成内容的标识机制。《互联网信息服务深度合成管理规定》第16条要求深度合成服务提供者对使用其服务“生成或者编辑的信息内容”,应当采取技术措施添加不影响用户使用的标识。在推进这项工作的过程中,业界反映文本因为原始信息量太小加载标识有困难,对音频、图片、视频加载标识的积极性也不高。作为妥协,《暂行办法》第12条规定,提供者应当对“图片、视频等”生成内容进行标识,等于放松了对文本和音频的要求。这样的妥协不但使两个规章的表述与适用范围不一致,也折射出业界对于标识工作的积极性不够。
业界积极性不够,客观上是因为添加标识在技术上有一定的难度,会增加企业的成本。不过,在《暂行办法》《安全基本要求》确立的生成过程全流程管理制度之下,即使业界投入大量资源开发、采用标识机制,仍然不能豁免诸如备案、语料安全等各种硬性义务。这样,业界对于标识机制必然缺乏主动性,只是被动完成规定动作,甚至找各种难以执行的理由。管理部门叠床架屋的要求,尤其会对新进入者、初创企业产生难以承受的合规负担。另一方面,造成管理部门层层叠加管理手段这样的局面,也有少数企业合规意识不强的原因,迫使管理部门不断加码。最后,业界越不愿意主动采取合规措施,管理部门就会越偏向采用更为严格、全面的管理手段;管理部门越采用更为严格、全面的管理手段,业界就越没有激励采取主动合规措施。要跳出这种恶性循环,就要遵循激励相容的行政管理基本原理,区分事前、事中与事后机制并处理好相互之间的关系,体现事后机制优先、信息披露等柔性机制优先等基本原则,使标识机制成为全流程管理的有效替代。如果服务提供者能够采用标识机制,就不需要叠加其他的硬性管理制度。
可见,用信息内容管理定位和规范人工智能,将互联网治理经验平移到人工智能领域,相当于将新质生产力纳入上层建筑管理,必然产生各种错配现象。在生产力与生产关系、经济基础与上层建筑二元划分的框架下,人工智能只能纳入科技、产业发展的新质生产力范畴进行定位,以推动科技创新和产业创新深度融合。有必要更加重视互联网治理与人工智能治理的差异,在区分信息内容管理与科技经济管理的基础上,按照党的二十届三中全会决定“健全因地制宜发展新质生产力体制机制”的要求,推进人工智能治理体系改革与法治建设。正如有学者指出的,“人工智能的立法基础和路径,应当深入到科技法及其迭代发展的语境之中加以认识”。
四、人工智能立法的科学定位
新一代人工智能通常划分为预训练和投入应用两个阶段,以便高效开发和部署大模型。在预训练阶段,大模型需要在大量数据上进行训练让模型学会生成或预测数据的一般性特征。在投入应用阶段,预训练好的模型被进一步调整或微调,用于各种生成任务,如文本生成、图像生成、音乐创作、数据增强等。
(一)预训练阶段的问题及法律定位
预训练阶段,核心是数据。OpenAI公司预训练大语言模型GPT-3,引入3000亿单词的训练语料,相当于互联网上所有英语文字的总和。利用互联网海量的训练数据,必然引发与数据权益人(最为典型的是版权人、个人信息主体)的各种权益冲突。如果训练数据都必须获得作品著作权人许可、向其支付报酬、指明作者姓名或者作品名称,或者,如果涉及个人信息的必须征得信息主体的同意甚至单独同意,即使大型企业也很难做到,遑论初创企业。因此,需要从法律上为大模型训练数据提供依据,否则整个人工智能产业发展无从谈起。但是,也不能无视版权人、个人数据主体等合法权益人的权利保护需求。为此,必须在原则可用前提之下,为数据权益人留出技术可行情形下必要的例外排除机制,形成“原则可用、例外排除”的运行结构。从理论上分析,数据具有公共产品所具有的非独占性、非排他性特点,从公开渠道爬取、使用、学习数据,一般并不构成对其他主体数据权益的侵犯。同时,对海量已公开个人信息的大批量处理,通常不会产生识别特定个人的风险。
美国在大模型研发与应用方面处于全球领先地位,除经济、技术实力以外,其版权法律制度对于合理使用、互操作的支持,政府机关公共档案自由使用制度,政府数据开放制度等,客观上都有利于训练数据的高效使用。美国学者清楚地意识到,如果美国法院不支持有利于机器学习的合理使用制度,创新就会转移到其他国家或者完全停止。可以预见,国际竞争会加快制度演进与扩散趋势。当然,美国需要为“例外排除”提供法律依据,尤其需要保护个人信息权利。欧盟为营造有利于创新的法律环境,2019年修改版权指令,第3条、第4条既为科学研究目的进行的文本与数据挖掘规定版权保护例外或限制,也为著作权所有者明确保留提供通道,正在朝“原则可用、例外排除”方向发展。欧盟《人工智能法》鉴于条款12c明确排除该法适用于投入部署或服务之前的研发、测试等活动,并明确将算法改进当做持续“学习”的过程,不构成人工智能系统的重大改变,不需要再履行合规评估手续,目的也是为推动大模型发展。不过,欧盟《一般数据保护条例》对已公开个人数据的处理要求非常严格,不利于训练数据的有效使用。
我国《著作权法》缺乏对大规模训练数据原则可用的明确授权,也缺乏政府数据开放和互操作的规定。在影响非常广泛的“新浪微博诉脉脉不正当竞争纠纷案”中,法院采用的三重授权原则会进一步抑制训练数据的有效爬取与利用。《安全基本要求》对语料范围的限制,更会实质性限缩预训练数据的范围。从比较视角来看,不论是原则可用还是例外排除,我国都有很多现实问题需要解决,明显滞后于美国、欧盟的制度建设。
(二)投入应用阶段的问题及法律定位
投入应用阶段,面临三个层面的法律问题。首先,必须回答人工智能生成物应如何定性,是否应享有权利保护,如果受保护谁是权利人,造成侵害如何划分责任等一系列基础问题。对这些基础问题的回答,会直接决定人工智能治理与立法的不同路径。其次,自主智能的出现,必然对歧视、隐私、安全、就业、教育、社会保障、法律程序、国际关系等各方面产生深刻的连锁影响,“具有广泛的社会溢出效应,在政治、经济、社会等各个领域都会带来深刻变革”。如何应对这些分散的溢出问题,需要全社会的广泛讨论。最后,自主智能的出现,预示着更为强大的通用人工智能不再遥远。远超人类智能的通用人工智能一旦出现,究竟会对人类文明带来哪些方面的重大风险,都是必须未雨绸缪的问题。国际上讨论人工智能的风险与挑战,包括2023年3月美国麻省理工学院生命科学研究所发起的暂停大模型研发六个月的签名运动等,多集中在最后这个层面。
自主智能投入应用带来的问题,充分反映前沿科技的复杂性和高度不确定性。从1956年国际社会开始采用人工智能概念开始,如何定义它就一直存有分歧。(智能体)机器人同样也很难定义,有学者认为有具身支持的才是机器人,但是,诸如ChatGPT这样的智能体并不需要具身支撑,只是对话工具。因此,耶鲁大学法学院波尔金教授专门解释,“当我谈到机器人时,我不仅会包括机器人——与环境相互作用的实物——还包括智能体与机器学习算法”。
自主智能的投入应用,会使人工智能的透明度与可解释性成为必须回答的问题。问题在于,“更复杂的模型可以提供更好的性能,但往往比更简单的模型如决策树更不容易解释”。人工智能领域一篇非常有影响力的文章专门讨论了深度学习模型的不透明性,即它们如何将学习到的信息分散存储,而不是以易于理解的方式集中存储,就是创建这些网络的研究人员也难以完全理解它们的内部工作机制;深度学习之外的其他人工智能方法可能更易于人类理解,但在处理复杂数据方面又不那么有效。
总体而言,预训练阶段的问题认识相对已经比较明确,各国措施正在趋同化,而投入应用阶段三个层面的问题认识分歧都非常大。比如,对于人工智能生成物是否应该享有版权保护这一基础问题,我国知识产权法学界有截然不同的观点。第一种观点认为机器不是法律保护的主体,因而不能将其生成物认定为著作权客体;第二种观点主张应当以生成内容本身的独创性来判断其是否构成作品,创作者身份不应是作品受保护的构成条件;还有各种折中观点或解决方案。国际上也一直有类似的争论与解决方案讨论。在我国,赞同第二种观点的学者更多,较为普遍地认为“人工智能生成内容的可版权性标准应该从作者身份转向独创性”,并赋予其版权保护。
理论上的分歧,必然会映射到法律实践中。我国司法实践中,对于人工智能生成物的可版权性问题,就出现过不同的判决。在菲林律师事务所诉百度公司著作权侵权案中,法院判决认为自然人创造完成应是著作权作品的必要条件。在腾讯公司诉盈讯公司侵害著作权及不正当竞争案中,法院判决认定涉案文章是由原告组织的主创团队利用人工智能软件Dreamwriter完成。在李某诉刘某侵害信息网络传播权案中(该案也被称为中国首例人工智能生成图片著作权纠纷案),法院认定原告对人工智能生成图片进行一定的智力投入,包括设计人物的呈现方式、选择提示词、安排提示词的顺序等,具备“智力成果”的要件。知识产权法学者吴汉东教授梳理我国司法实践后得出结论,“可以认为,中国法院对人工智能生成作品采取了有条件保护的司法原则”。
美国版权法并未明确规定版权作者只能是自然人,后来由负责版权登记的美国版权局将版权作者限定为自然人,并因此不对人工智能生成物进行版权登记。至于美国国会、法院,均尚未有机会对人工智能生成物是否享有版权以及版权归谁所有做出决定。不过,根据美国联邦最高法院过往坚持版权作者必须是自然人的立场,可以推知其不会支持人工智能生成物的可版权性,这与我国法院有条件保护的司法原则正好相反。中美两国分别代表两种不同的认识和解决方案,其他大部分国家,对这个问题的关注又有所不同。比如,英国过去大量的研究一直乐观地认为其《1988年版权、设计和专利法》第9(3)节完全可以解决计算机生成作品的版权问题,结果发现新一代人工智能发展以后研究不够。2020年之前,除中美两国之外,“全球范围内,各国对于人工智能生成作品是否给予版权保护以及如何保护,几乎没有任何共识”。
然而,在人工智能技术快速发展的背景下,法治与治理机制久拖不决或者长期模糊不清会直接产生各种负面影响,因此,人工智能基础问题正在快速形成共识与公共政策选择。2020年,美国专利和商标局、欧盟专利局和英国高等法院均在具体案件中否决人工智能系统作为发明者的专利申请,否定人工智能生成物的可专利性。从中可以看到,将人工智能生成物归入公有领域,不享有任何版权或者专利权保护,正在迅速成为普遍的发展趋势,基础问题正在快速形成共识。曾经的中美两国立场差别,正在成为中国与美国、欧盟(以及其他国家)之间的路径差别。并且,美国、欧盟的实践取向已经比较明确,而我国理论与实务界的认识分歧依然非常大。
知识产权领域人工智能生成物的非权利化安排,与其说是知识产权领域的技术问题,不如说是人工智能与人类关系的基本原则问题。人工智能的最大挑战在于其“涌现”或者“生成”能力,可以创造新知识。目前,在图像分类、视觉推理和英语理解等方面,人工智能已经超越人类也会逐步在其他领域实现对人类的超越。随着人类历史上科技第一次从纯粹的工具变为独立创造的主体(智能体),必然会出现越来越多智能体自主决策而非辅助决策的领域。美国联邦行政机关在执法领域已经大量采用机器学习技术。哈佛大学法学家桑斯坦教授承认,算法在提高决策的准确性和一致性方面较人类具有显著优势,尽管在设计和应用算法时需要仔细考虑可能带来的歧视问题。更多学者也已经接受算法比人类决定更为可靠的观点。
既然智能体能够自主决策,比人类更聪明,必然会追问的是,是否应该赋予其法律主体地位。斯坦福大学法律学者将机器人作为法律主体研究,全面设计机器人危害行为的救济体系,甚至提出“机器人死刑”这样的责任机制。有学者断言,“我们可能即将创造一个新的法律主体范畴,介于人与客体之间。我相信法律必须为这一类别腾出空间”。我国也有学者认为,“确认智能机器人的法律主体性地位是对机器人立法要解决的首要和关键问题”。
然而,智能体不具有法律主体资格,仍然是各国共同坚持的基本原则,也是大部分专家的立场。在人与智能体的关系中,以人为中心是不证自明的真理。美国哈佛大学Berkman中心的研究团队历时两年多,对包括联合国、经合组织、美国、欧盟、中国、法国、德国、日本、微软、腾讯等在内的国际组织、国家、企业、社会组织制定的36份人工智能“原则”文件进行分析后,总结出八项基本原则。其中两项分别是“由人类控制技术”以及“提升人类价值”,占比均为69%,包括规定“人工智能系统只能是工具的法律地位”,“如果机构不能再控制人工智能系统时有义务销毁它”。因此,无论智能体多么聪明,法律的根本问题仍然是“当机器人和智能体创造利益或造成伤害时,如何在人类之间分配权利和义务”。欧盟官方研究报告曾经提出“电子人”概念,但认为在当前的法律框架下机器人的责任应由其设计者、制造商、操作者或所有者承担,而不是让机器人承担。智能体不具备法律主体地位,其生成物当然不具有权利化属性,这是以人为中心的必然要求。
(三)我国人工智能立法的基本定位
上述分析表明:(1)无论是理论研究还是制度建设,我国都面临不少现实问题。在人工智能加速发展、国际竞争更为激烈的背景下,我国人工智能立法需要尽快提上议事日程,厘清人工智能发展的基础问题,凝聚共识,明确权利义务关系,任何拖延或者无所作为都会错失时机。同时,由于人工智能仍然处于发展过程之中,溢出问题与终极问题仍然没有形成共识,具有很大的不确定性;即使形成共识的基础问题领域,通常横跨不同法律部门,需要根据问题不同分别设计相应的法律制度与实施机制。因此,我国人工智能立法需要保持灵活性、小步快跑,避免“一刀切”立法造成难以挽回的负面影响。当前,各国正在推动的人工智能相关立法活动,普遍都以解决具体问题为目标,而不是制定统一的人工智能法。如同我国不可能制定一部网络法一揽子解决网络相关法律问题一样,我国不可能制定一部一揽子解决版权、个人信息保护、政府数据开放、侵权责任分配、互操作、就业体系调整等横跨众多不同法律部门的人工智能法。(2)需要从人工智能作为前沿科技和新质生产力来定位和把握立法,在全面梳理不同层次挑战与风险的基础上,尊重科技本身规律,充分发挥法治、技术与物理架构、科技伦理、技术标准、行业自律、市场竞争、国际合作等多种治理机制的作用,进行整体制度设计与回应,发挥制度合力,避免定位偏差与认识错误导致的头痛医头、脚痛医脚现象。(3)就实现路径而言,可由全国人大常委会就人工智能安全与发展涉及的重大原则问题先制定一份法律问题的决定,明确基本原则与方向,然后通过不同部门法的立改废释分别推进。既要清理、废止不利于人工智能发展的规定与做法,澄清模糊认识,又要确立有利于推动人工智能安全与发展的观念、规范与制度。可见,人工智能法是“产业促进法与风险治理法的协调”,需要多方参与,不是立法部门一家能够完成的任务,更不可能一步到位。
2024年通过世界上第一部也是至今唯一一部《人工智能法》,被我国一些学者作为需要制定人工智能法的例证并提出不同版本的专家建议稿。其实,欧盟的做法不具有普适性,很难借鉴。欧盟作为高度一体化的区域性经济政治组织,其立法带有法典编纂功能或者“一揽子解决”功能。《人工智能法》的全称为《人工智能与修正欧盟某些立法的法》,有大量与欧盟其他立法以及成员国国内法相互衔接的规定,第七章第75条到第82条更是对欧盟其他相关立法的具体修正规定。包括我国在内,一般的国家立法既不需要也不可能具备这样的法典编纂功能。
如果分析立法背后的逻辑可以发现,欧盟《人工智能法》聚焦于从产品责任角度防范高风险人工智能系统可能造成的损害,绝大部分内容均属于产品安全与责任法的范畴,以解决“现行欧盟(产品)安全立法适用于产品而不适用于服务,并原则上不适用于基于人工智能技术的服务”“欧盟产品责任立法只规定生产者责任,将供应链上其他主体的责任交由成员国责任规则调整”等问题。欧盟形式上是统一立法,但调整范围有限,并不覆盖人工智能安全与发展的很多领域,包括前述的人工智能生成物的可版权性、可专利性等基础问题以及溢出问题。有论者因此指出,“关键在于《人工智能法》是否真的带来产品法的力量和优点,以扩大欧盟对智能组件产品的不断改进实践,还是该法律仅仅成为旨在事后攻击少数精英参与者的门面立法”。相比之下,美国14110号行政命令采用的是典型的确立基本原则后全面推进的方式,对超过50个联邦机构布置100多项落实行政命令的具体任务,在广度、深度与影响力方面都要强很多。2024年5月,美国参议院跨党派人工智能工作组发布路线图,延续采用分散立法推进人工智能安全与发展的思路。
为避免统一立法阻碍人工智能发展,代表欧盟十四个成员国的官方文件明确提出,“我们应该转向软法解决方案,如自我监管、自愿标识和其他自愿做法,以及健全的标准化程序,作为对现有立法的补充,以确保满足基本的安全和保障标准。考虑到我们正面临快速发展的技术,软法可以让我们从技术中学习并识别与之相关的潜在挑战”。德国政府的立场是,“联邦政府正在倡导并努力建立一个适当的监管框架,在此框架内扩大并在必要时进一步发展现有的高质量基础设施,以在适当时反映人工智能的具体问题”。可以看到,不同于欧盟个人数据保护立法前后世界各国相继跟进立法所产生的“布鲁塞尔效应”,欧盟《人工智能法》出台后,在欧盟内部至今也没有跟进立法。日本经济产业省组织的专家组经研究后得出结论,“目前,对人工智能系统具有法律约束力的一般立法被认为是不必要的”。
几年前,英国上议院人工智能特设委员会经过广泛听取各方面意见后就得出结论,“在这个阶段,针对人工智能的全面立法是不合适的。我们认为,现有的行业监管机构最适合考虑可能需要的后续立法对其行业的影响”。印度的思路与英国大致相同,除确立统一的数据保护法律制度以外,更多发挥领域法律的作用。在信息化立法方面一直走在各国前列的韩国2019年12月发布《国家人工智能战略》,2020年12月发布《改善人工智能法律、系统与监管路线图》,2023年5月公布《数字权利法案》,一直采用的是分散推进立法的方式。新加坡目前也没有任何特定的人工智能立法计划。目前,除欧盟以外,世界上尚无任何主要国家已经制定或者打算制定统一的人工智能法。
五、推动我国人工智能法的范式变革
面对人工智能全面性、颠覆性挑战,法律制度必须进行彻底改革与重构。然而,多主体分别推进法治变革的最大问题在于,如果缺乏明确认识和有效统筹,极有可能出现实践中已经有所体现的难以形成合力甚至相互冲突的结果。因此,必须首先明确“怎样在具体规则中凸显人工智能的规范特质”,然后才有可能推动立法系统变革。
回顾人类法律发展历史,随着公司的出现,1855年,英国制定《有限责任法》,规定公司股东对于公司债务只在其投资范围内承担有限责任,奠定现代企业制度和市场经济的基础,成为现代法治的标志。随着平台的出现,1996年,美国《通信规范法》第230条确立避风港规则,奠定平台经济发展的基础,被公认为互联网时代最为重要的法律规则和网络法治的代名词。智能体的出现,必然推动人工智能法走上历史舞台。哪个国家能率先发现并确立基本规则,哪个国家就有可能引领人工智能法整体范式变革。法治范式变革涉及整个法治体系的系统联动,其影响与范围比立法定位都要大得多。
如果对各国人工智能法治实践进行理论抽象,可以发现,新范式的基本规则其实已经初具雏形,最大特点表现为“非对称性”。
(一)预训练阶段“原则可用、例外排除”的非对称性
“原则可用、例外排除”呈现典型的非对称性,价值判断与选择非常明确。原则可用意味着除法律明确禁止公开的数据(国家秘密、商业秘密、个人隐私)以外,其他合法公开的所有数据原则上均可以用来进行训练,包括版权作品、已合法公开的个人信息、公共数据和其他数据等。采用原则可用概念而非著作权法学界通常采用的合理使用概念,一是因为预训练阶段的数据不只涉及版权作品,还涉及版权作品之外广泛来源的数据。采用合理使用概念,会局限于版权法,限缩讨论与制度适用的范围。二是因为即使对版权作品,采用合理使用概念也无法反映大数据时代对于版权作品的预训练需求。有学者指出,我国2020年第三次著作权法修订采用“半封闭式”的限制和例外模式,制度空间有限,人工智能创作中对版权作品的利用很难通过“三步检验法”的检测和过滤。原则可用意味着要跳出我国著作权法限制与例外立法模式的束缚,除公开的著作权作品原则上都可用于训练以外,还应确立互操作制度,为采用技术手段绕过权利人对接口设置的技术措施爬取数据提供法律依据。原则可用也意味着要加大公共数据的开放力度,建立免费、无歧视、高质量的公共数据开放制度。
例外排除包括两类,一类是法律明确禁止公开的国家秘密、商业秘密、个人隐私等数据,另一类是数据权益相关人单独提出并且技术上可以排除使用的数据。第一类已经有相关法律规定,实践中需要进一步明确其标准、边界与程序,防止制度过于模糊。第二类属于人工智能时代的新挑战,需要在著作权法、个人信息保护法、公共数据开放立法中为权益相关人维护自己权益设计相应的制度,实现制度之间的平衡。不过,数据可用是原则,排除使用是例外,应该在所有制度设计中得到体现。
(二)投入应用阶段“有义务无权利”的非对称性
不论是具身人工智能(人形机器人、无人驾驶汽车)还是非具身人工智能,造成违法损害后果必须承担责任是没有争议的问题。对于有害或者高风险的人工智能系统,法律还会禁止或者施加事前监管措施。结合人工智能生成物非权利化安排,这种“有义务无权利”的格局呈现突出的非对称性特点。表面上看,非对称性不同于法律面前一律平等、权利义务一致性等基本法律原则。然而,两个阶段的非对称性结合到一起,预训练阶段的数据原则可用,生成物进入公有领域、人人可用并重新投入训练,正好实现良性循环和相互证成,是最合理的制度安排。
如何确定智能体造成损害的法律责任非常复杂,必须结合不同应用场景,在实践中逐步明确认定标准和划分原则。由于大模型服务不具有双边市场特点,其运行模式不同于连接供需双方的平台经济模式。大模型服务提供者必须为智能体造成的损害承担直接责任而非第三方责任,不能搬用网络法中的避风港原则。即使大模型开源,也只能免除某些透明度义务,不能免除造成损害的法律责任。但是,另一方面,大模型自主决策是大模型与使用者之间互动的结果,使用者的输入必不可少。如果对大模型的责任设定过于严格,极易诱发使用者的逆向选择,以谋取各种不当利益。在使用者恶意行为的情况下,大模型服务提供者实际上是在为使用者的行为担责。除了大模型服务提供者与使用者之外,还包括预训练阶段的数据创建者、数据管理员、模型创建者等不同主体,需要结合不同场景区分责任承担,比线下侵权责任主体认定要复杂得多。另外,智能体自主决策机理不同于人类,不能直接搬用一般法律规则或认定标准。比如,人工智能生成物均为合成物,不可能不受训练数据影响。因此,在认定生成物是否构成抄袭、复制方面,应尊重其规律,否则会制约大模型的发展。美国学者最新的研究建议,如果大模型技术上采取有力的侵权预防措施,法律上应赋予其避风港保护,形成技术与法律的双向演进。2024年,广州互联网法院审理并判决我国AIGC平台侵权第一案。该案中,法院认为,案涉生成图片部分保留案涉作品的独创性表达并在此基础上形成新的特征,侵犯原告对案涉作品的改编权。该案公布后引发业界较大的争议,被认为会阻碍产业发展。相反,北京互联网法院2024年审理的全国首例“AI声音侵权案”,获得比较一致的正面评价。两个案件的最大差别在于,后者按照普通人识别标准达到了深度伪造程度,而前者并未达到公认的深度伪造程度。可见,智能体的法律责任认定标准也呈现不同于一般侵权规则的非对称性。
智能体的出现,已经引发各种深层次变化并催生出既不同于现代法,又不同于网络法的人工智能法。现代法、网络法与人工智能法三大范式叠加、交织并共同发挥作用,是当今时代这一领域的最大特点。把握人工智能法非对称性特点,加快推动法治范式变革,是迎接时代挑战的必然要求。
责任编辑:常烨 初审:陈青山 审核:黄忠
版块介绍 —治理之智
在全球化背景下,科技的快速发展也带来了前所未有的治理挑战。本板块内容依托阿里巴巴集团先进的AI科技能力、丰富的应用场景与负责任的技术生态,聚焦于AI风险、AI大模型安全、AI大模型开闭源生态、AI大模型出海等AI治理政策研究,基于技术理性的风险观,为大模型发展与安全平衡与取舍提供独到见解。同时,我们致力于收集和分享海内外AI治理先进理论与经验,为构建合理的科技治理体系提供智慧与灵感。
Reading
3、
4、
5、
6、
7、
8、
9、
10、
11、
12、
13、
14、
15、
17、
18、
19、
20、
热门跟贴