【副标题】 从“反反爬行为”的性质切入

【作者】苏桑妮(法学博士,浙江工业大学数字法治研究院副院长,浙江工业大学法学院讲师)

【来源】北大法宝法学期刊库《浙江社会科学》2024年第4期(文末附本期期刊法学要目)。因篇幅较长,已略去原文注释。

内容提要:在涉及网络爬虫程序的数据犯罪案件中,绕过反爬虫措施的“反反爬行为”因其“技术侵入性”和“法益侵害性”,成为爬取公开信息行为入罪的主要依据。然而,反爬虫措施不是计算机安保措施,故“反反爬行为”的“侵入性”在技术层面上并不成立。同时,为保护“数据控制权”而认定绕过反爬虫措施抓取数据行为侵害数据安全的观点,亦不具有正当性、合理性和可行性。实际上,基于计算机技术的原理、数字经济发展的需求、维护法秩序统一的需要,只有当“反反爬行为”突破基于特定身份的访问权限,从而破坏封闭网络空间的信息安全时,相应爬取数据行为和提供爬虫程序行为才成立数据犯罪。因而绕过反爬虫措施抓取公开信息的行为,不应构成非法获取计算机信息系统数据罪。

关键词:反反爬行为;网络爬虫;公开信息;非法获取计算机信息系统数据罪

目次 一、引言 二、“反反爬行为”证成爬虫违法的入罪逻辑 三、基于技术原理的“反反爬行为”性质再分析 四、网络爬虫侵害数据安全法益的内涵阐释 五、结语

引言

为强化对数据安全的保护,我国对网络爬虫技术(下文简称“爬虫”)的法律规制日趋严厉,已从民事违法转向刑事入罪。近年的司法实践表明,即便是爬取公众可浏览的公开信息,乃至提供该种爬虫程序的行为,都会构成相应数据犯罪,全国首例网络爬虫入刑案、全国首例短视频平台领域网络爬虫案等皆为例证。考察相关案件可以发现,认定爬取公开信息行为或提供该爬虫程序行为构成犯罪的主要依据在于,该行为或程序中存在“反反爬行为”,即避开或突破反爬虫措施的行为,集中体现了网络爬虫的刑事违法性。

具体而言,在爬取数据过程中,通常会遭遇网站设置的反爬虫措施,即阻止爬虫访问目标服务器或获取资源的技术策略,如User-Agent识别、IP限制等。作为应对,爬虫程序设计者会在程序中编写对应的“反反爬策略”代码,如User-Agent伪装、IP代理等,以避开反爬虫措施。此种绕过反爬虫措施的“反反爬行为”,被认为避开或突破了计算机安全保护措施,存在技术侵入性,因而丧失了技术中立性,无异于黑客行为。绕过反爬虫措施抓取的即便是公开信息,也具有侵害计算机系统安全和数据安全的现实危险性。所以,司法实践中,一旦查明网络爬虫程序设计有“反反爬行为”,则可证明利用该程序抓取数据或提供该爬虫程序的行为具有严重社会危害性,构成犯罪。

然而,分析“反反爬行为”的技术原理可知,其不存在技术侵入性,绕过反爬虫措施抓取公开信息的行为也不会一概侵害刑法法益。对此,有必要解构爬取公开信息行为依据“反反爬行为”入罪的逻辑,并通过探究“反反爬行为”的性质,重构判断网络爬虫行为侵害数据安全法益的标准,尤其是揭示数据安全法益的本质内容。藉此明确爬取公开信息行为的刑法规制边界,以期为司法实践提供合理可行的规制路径,使刑法在保护数据安全的同时不阻碍数据资源依法有序自由流动。

“反反爬行为”证成爬虫违法的入罪逻辑

当前刑事司法实践中,爬取公开信息行为能够被认定为非法获取计算机信息系统数据罪,主要依赖于爬取数据过程中的“反反爬行为”证成了爬虫行为的刑事违法性。如在2017年武汉元光公司非法获取计算机信息系统数据案(下文简称“武汉元光公司爬虫案”)中,被告为爬取原告 APP中公众可查询的实时公交数据,避开了原告所设置的IP限制这一反爬虫措施,该“反反爬行为”被法院认定系获取数据的非法手段。又如在2017年上海晟品网络科技有限公司非法获取计算机信息系统数据案(下文简称“上海晟品公司爬虫案”)中,法院认为,被告人在爬取可浏览视频数据的过程中,“使用伪造device_id绕过服务器的身份校验,使用伪造UA及IP绕过服务器的访问频率限制”,足以认定其破解了被害单位的反爬虫措施,未经授权侵入了计算机信息系统,该行为成立非法获取计算机信息系统数据罪。不仅如此,提供设计有“反反爬行为”之爬虫程序的行为,也会被认定为提供侵入计算机信息系统程序罪。如在2022年全国首例短视频平台领域爬虫案件中,用于抓取短视频平台上公开用户信息的爬虫程序,因具有绕过被害网站反爬虫措施的功能,被认为是“专门用于侵入计算机信息系统的程序”。甚至在个别案件中,爬虫程序因存在“频繁更换 IP 地址”和“对接打码平台自动识别验证码机制”的“反反爬行为”,被认为对网站的“正常操作流程及正常运行方式产生了干扰,属于破坏性程序”。因此,上述案件中提供爬虫程序的行为均被定罪。

可见,在司法实务中,User-Agent伪装、IP代理、自动识别验证码等常见的“反反爬行为”,成为判断网络爬虫行为和程序的危害性的主要依据。对此,刑法学界普遍认可,并称爬虫对网站反爬虫措施的避开或突破,表明“网络爬虫的侵入性”,“是其刑事违法性的主要体现”,故意避开或强行突破反爬虫措施的网络爬虫需要承担刑事责任。而解构上述案件的定罪逻辑可知,“反反爬行为”之所以能够证成爬取公开信息行为或提供该程序行为的刑事违法性,是因为其绕过反爬虫措施的这一举动,被认为是对计算机的非法侵入,在形式层面上符合了非法获取计算机信息系统数据罪等罪名的构成要件要素,又在实质层面上侵害计算机系统安全和数据安全,满足了犯罪成立所需的法益侵害性。

(一)形式上“反反爬行为”体现爬虫侵入计算机的非法性

“反反爬行为”对反爬虫措施的避开或突破,不论从技术还是规范来看,均被认为是对计算机系统的“非法侵入”,从而满足了数据犯罪对行为或程序的“侵入性”要求。

从技术层面考虑,“反反爬行为”被认为避开或者突破了“计算机信息系统安全保护措施”。因而设计有“反反爬行为”的爬虫程序,“具有避开或者突破计算机信息系统安全保护措施,未经授权或者超越权限获取计算机信息系统数据的功能”,依照2011年最高法、最高检《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》(下文简称“2011年《办理危害计算机安全刑事案件的解释》”)第2条的规定,应当被认定为《刑法》第285条第3款规定的“专门用于侵入计算机信息系统的程序”。如有观点认为,若爬虫程序采取的技术手段规避了“有关反‘爬虫’的安防措施”,则该爬虫程序具有避开或者突破计算机安保措施、未经授权获取数据的功能,“对其刑法规制应当与对‘撞库软件’、木马病毒程序等程序、软件的刑法规制一致”。因此,提供设计有“反反爬行为”之爬虫程序的行为构成提供侵入计算机信息系统程序罪。正是基于此,司法机关认定,若爬取数据行为过程中存在“反反爬行为”,则意味着该爬虫行为对目标网站的访问属于无权访问,系“非法侵入”行为,属于“违反国家规定,侵入计算机信息系统”获取数据,构成非法获取计算机信息系统数据罪。

从规范层面考虑,不论“反反爬行为”是否避开或突破计算机安保措施,其都符合司法实践对“侵入”的实质解释,即违背被害人意愿进入计算机信息系统。根据最高人民检察院第36号指导性案例,非法获取计算机信息系统数据罪规定的“侵入”是指“违背被害人意愿、非法进入计算机信息系统的行为”,其表现形式既包括采用技术手段破坏系统防护进入计算机系统,也包括未取得被害人授权或超出被害人授权范围擅自进入计算机系统。按此解释,判断“侵入”与否的关键在于,对计算机系统的进入是否违背被害人意愿。那么,在反爬虫措施已表明网站对爬虫持拒绝态度的前提下,绕过反爬虫措施的“反反爬行为”当然可以解释为违背网站意愿的“侵入”行为。

更何况,司法实践通常认为,即便“反反爬行为”不是技术上的侵入行为,也属于非法获取数据的“其他技术手段”。如前述武汉元光公司爬虫案便认定,绕过反爬虫措施抓取可查询公交数据的行为,属于“违反国家规定,采用其他技术手段,获取计算机信息系统中存储的数据”,构成非法获取计算机信息系统数据罪。这是因为,“反反爬行为”即使没有在技术上“进入”计算机系统,仍然会因为未经允许采用技术手段获取网络数据,违反《网络安全法》第27条关于禁止窃取网络数据的规定,属于非法获取。本条规定之“窃取网络数据”的核心,仍在于违背被害人意愿获取,与规范上对“非法侵入并获取”的理解别无二致。从这个角度来说,《刑法》第285条第2款的“其他技术手段”仍属于实质上的“侵入”,这也是体系解释的应有之义。在此意义上,仍可以说“反反爬行为”是对计算机信息系统的“侵入”。

(二)实质上“反反爬行为”表明爬虫对网络安全的侵害性

“反反爬行为”除了在形式上被认为属于“非法侵入”之外,还被认为在实质上具有破坏计算机系统安全的现实可能性,并且危害了以数据控制权为核心的数据安全,具有法益侵害性。

从计算机系统安全角度考虑,网络爬虫行为因其技术特性,本就存在扰乱计算机正常运行的风险,而“反反爬行为”被认为极大地增加了将此种风险转变为现实的可能性。具体而言,网络爬虫可以发起请求、访问网站并抓取数据,这些步骤经由程序设定后具有自动、快速和反复的特点。因为抓取频率过高,爬虫程序可能使得短时间内大量访问请求冲击计算机,造成服务器拥堵甚至崩溃,破坏计算机系统安全。为了降低此种风险,网站通常会设置反爬虫措施,以阻止爬虫的高频次访问。然而,设计有“反反爬行为”的网络爬虫可以绕过反爬虫措施访问计算机系统,则会使扰乱计算机正常运行的危险转变为实害。正因如此,司法机关通常认为“反反爬行为”所具有的绕过计算机安保措施的功能,是有害程序区别于中性程序的主要特征。

从数据安全角度考虑,司法实践基于保护数据控制权的立场,认定“反反爬行为”侵害了刑法保护的数据安全。所谓“数据控制权”,系数据控制人访问和使用数据的权利。保护信息内容公开但数据代码未公开的数据,是“数据控制权”的应有之义和核心观点。司法实践对上述数据控制权的刑法保护立场,在上海晟品公司爬虫案和武汉元光公司爬虫案中均有体现。上海晟品公司爬虫案中,主审法官严格区分了“信息”与“数据”,认为“信息”是可视化内容,“数据”则是内容的代码载体。因此信息公开不等于数据代码失去了保密性,不意味着爬虫有权获取数据,“只有在数据权利人或者控制者允许公众获得数据或者允许他人获取数据并且不限制他人再提供给公众,数据才失去法益保护的必要性”。可见,本案确立了刑法保护数据控制权的立场,明确了数据控制者对数据代码的控制权。同样,在更早的武汉元光公司爬虫案中,被告人绕过反爬虫措施抓取公众可查询数据的行为,也因为违反被害人对数据载体的控制被认定为犯罪。该立场亦获得部分学者认可,认为数据的法益属性指向数据的控制与操作,数据安全的核心在于数据控制的安全,“旨在保护数据为适格主体的访问、控制和使用”。

基于刑法保护数据控制权的法益解读,“反反爬行为”显然具有法益侵害性。因为数据控制者设置反爬虫措施的目的,正在于控制数据的访问对象,只接受用户人工的真实访问,而拒绝网络爬虫等机器人自动化访问。那么,“反反爬行为”绕过反爬虫措施的举动,也就侵害了数据控制者保护数据不被爬虫访问的数据控制权利或数据控制安全秩序。正因如此,绕过反爬虫措施抓取公开信息的行为,或提供该爬虫程序的行为,也就凭借其“反反爬行为”侵害了数据控制权。

基于技术原理的“反反爬行为”性质再分析

综上所述,“反反爬行为”因其技术和规范上的侵入性,不仅满足了相关犯罪的形式要件,还是爬虫程序实质侵害计算机系统安全和数据控制权的原因,理应是爬取数据行为和提供爬虫程序行为刑事违法性的集中体现,而不论爬虫抓取的是不是公开信息。但在这种定罪逻辑之下,隐藏着两个未决的关键问题:其一,就“反反爬行为”的技术侵入性而言,反爬虫措施是不是计算机安全保护措施?这一问题的答案关系到“反反爬行为”是否侵害计算机系统安全。其二,就“反反爬行为”的法益侵害性而言,在保护计算机系统安全层面,爬虫扰乱计算机系统正常运行的可能性,是刑法可接受的风险还是刑法禁止的危险?在保护数据安全层面,将刑法保护的数据安全解读为数据控制权是否合理?

其实,分析爬虫技术原理可知,“反反爬行为”的所谓侵入性,从技术上讲并不成立,当前对“侵入”概念的刑法教义学解释,实则以“反反爬行为”必然侵害计算机系统安全和刑法保护数据控制权为前提。但是,“反反爬行为”不直接侵害计算机系统安全,相关规定也表明为了促进数据资源的最大化利用,法律容忍爬虫在一定范围内存在的扰乱计算机系统的风险。并且,将数据控制权作为刑法法益予以保护的做法,也仍要受到关于正当性、合理性和可行性的追问。

(一)“反反爬行为”不具有技术侵入性

“反反爬行为”被认为绕过了“计算机信息系统安全保护措施”,具有技术侵入性,但对于何为“计算机信息系统安全保护措施”,并不明确。根据《计算机信息系统安全保护条例》第3条和《网络安全法》第76条第(二)项对“计算机安全”和“网络安全”的定义,以及国际上对“计算机安全”的通常界定,可以认为“计算机信息系统安全保护措施”是指用来保障计算机功能的正常发挥,防止硬件、软件或数据被损坏及信息泄露,使网络处于稳定可靠运行的状态的技术措施。

并且,应当认为2011年《办理危害计算机安全刑事案件的解释》所指的“计算机信息系统安全保护措施”,并非泛指任何有利于维护计算机系统稳定运行的技术性措施,而应当具有保护内部网络空间访问权限的意涵。这是因为,首先,从计算机安保措施的通常定义来看,防止信息泄露的功能本就意味着计算机安全保护措施的对象,是相对封闭且存在访问权限的内部网络空间;其次,计算机安保措施的机制在于,在内部网络空间与外部网络环境通信时,将无身份权限的用户或数据拒之门外。最后,也是最重要的原因在于,作为判断《刑法》规定的“专门侵入、非法控制计算机信息系统程序”的工具之一,“计算机信息系统安全保护措施”应当限制解释为旨在防止非法侵入、非法控制的技术性措施,而侵入的核心在于超越权限,且其后果通常是取得操作权限。因此,应当认为只有当特定网络处于封闭状态且存在访问权限时,才有计算机安保措施存在的空间。

那么,通过对User-Agent识别、IP限制、验证码识别这三种最常见反爬虫措施的技术原理进行分析,可以发现,它们或为互联网传输协议的格式要求,或为减缓用户访问的方式,均不具有保护相对封闭之网络空间免受未经授权访问的能力,不属于司法解释规定的“计算机信息系统安全保护措施”。

首先,User-Agent 识别(简称“UA 识别”),是司法实践中最常见的反爬虫措施。其中,User-Agent直译为“用户代理”,而用户访问网站的“代理”通常是浏览器,也可能是其他自动化程序(如爬虫)。因此简单来说,UA识别,就是服务端(如网站)在收到客户端(如用户)的访问请求时,对用户的“代理程序”(User-Agent)进行识别,若发现不是浏览器而是爬虫程序在访问网站,就会采取拒绝服务等方式阻止爬虫继续访问的措施。虽然网站可以根据UA识别的结果,拒绝爬虫程序的访问,但是UA识别本身不是网站为了保护计算机安全而采取的技术措施:首先,识别User-Agent等请求头信息,是超文本传输协议(Hyper Text Transfer Protocol,下文简称“HTTP协议”)规定的为实现数据交互所必须传输的格式,而非为保护计算机安全所设的措施。根据HTTP协议,为了确保服务端接收到客户端请求,客户端访问网站的请求需要有请求行、请求头等内容,正如信封上的收信人地址和寄件人信息。其中,UserAgent正是请求头中的内容,是数据得以交互传输的格式所需。其次,识别User-Agent的主要作用,不在于保护计算机安全,而在于提供契合客户端类型的前端服务。具体而言,分别用电脑浏览器和手机浏览器访问同一页面,会发现服务端呈现给电脑和手机的页面版式存在不同,这是服务端有意为之。因为电脑和手机两种设备的大小和操作方式均不相同,若将电脑网页排版原封不动地呈现在手机浏览器上,会降低用户体验感。所以,服务端通常会通过识别 User-Agent的类型,如识别用户使用的是哪种浏览器,来给不同类型的客户端提供与其设备、程序相匹配的服务。因此,UA识别作为一种数据传输格式要求,其目的在于对不同客户端提供相应服务,而不是计算机安保措施。

其次,武汉元光公司爬虫案提到的另一类常见反爬虫措施——IP限制,也不是计算机安全保护措施。IP限制,是指通过判断同一IP地址发起访问请求的频次,来限制访问过快的IP地址访问网站的措施。IP地址是每一个网络和每一台主机被分配的一个逻辑地址,通常是一串数字的组合,如果把电脑看作手机,IP地址就是其电话号码。同样的,网络爬虫高频访问某一特定网站导致服务器崩溃,就像不停拨打某一电话号码致使电话占线而无法接通其他正常来电。对此,网站会设置IP限制阻止访问频次过快的IP地址访问网站,正如把不停拨入的骚扰电话拉进黑名单。尽管IP限制这一手段可以在一定程度上阻止因访问过快而导致的系统崩溃,但仍然不是刑法上的计算机安全保护措施。一方面,诚如前文所言,司法解释规定的“计算机信息系统安全保护措施”并不泛指任何有利于维护计算机系统稳定运行的技术性措施,而需要具有保护相对封闭网络空间免受未经授权访问的功能。IP限制则不具备如此功能,因为IP限制针对的网络爬虫访问的均是公众可访问的外部网络空间。另一方面,避开IP限制的“反反爬行为”——IP代理,其本质在于更换爬虫访问网站的IP地址,是网络使用的常态。IP限制这一措施限制的仅是特定IP而非固定用户,使用多台设备(如电脑、平板或手机),就意味着使用多个IP地址,就像同一部手机使用多个电话号码。这与常见避开或突破计算机安保措施的黑客行为相比,性质大不相同。简单来说,如果A电话号码被B手机拉入黑名单,突破黑名单的封锁而继续用A号码拨打B手机的行为(如同黑客行为)违反了电信规则。但是,换为C号码继续拨打的行为(如同更换IP地址)则无可厚非。可见,IP限制只能起到减缓用户访问网站速度的作用,没有“避开或突破计算机信息系统安全措施”。“更换IP地址的行为不应受到任何责备,这是使用互联网的日常。”

最后,验证码与IP相同地址的识别,也仅是“减缓用户访问的一种方式,而不是拒绝授权访问的方式”,不是计算机安保措施。验证码(CAPTCHA)是“全自动区分计算机和人类的图灵测试(Completely Automated Public Turing test to tell Computers and Humans Apart)”的缩写,其工作原理是让用户识别并输入或操作以图像形式展现的验证码,以判断用户身份。因为验证码内容通常是字母、计算题、拼图等,需要肉眼识别。而网络爬虫等自动化程序虽然可以获取图片,却没有人类的眼睛,较难识别图像展示的内容,于是验证码就可以在一定程度上把“机器人”挡在门外,默认通过验证码考核的用户是真实人类,让其访问网站。但是,验证码识别作为一种区分用户是自动化程序还是真实人类的措施,其作用仅仅在于拒绝以网络爬虫为代表的“机器人”访问服务器,而不阻止其他用户访问,不具有保障计算机系统的可靠性、完整性和数据私密性的能力。

总而言之,从技术原理上讲,UA识别、IP限制、验证码等常见反爬虫措施并非计算机安保措施,“反反爬行为”也不是“避开或突破计算机信息系统安全保护措施”的行为,不具有技术上的侵入性。当然,仍然可以通过对“侵入”概念的扩大解释,认定“反反爬行为”属于“侵入”或者非法获取数据的“其他技术手段”。但即便如此,存在“反反爬行为”也不当然表明网络爬虫行为或程序具有刑事违法性,仍需进一步考察其法益侵害性。

(二)“反反爬行为”未必有法益侵害性

就破坏计算机系统安全而言,由于网络爬虫的技术原理是模仿真实用户利用浏览器访问网站,因此“反反爬行为”作为其流程之一,不会也不能直接破坏计算机系统安全。事实上,网络爬虫行为扰乱计算机系统正常运行的风险,不是“反反爬行为”直接导致的。即便“反反爬行为”客观上会升高爬虫扰乱计算机系统的风险,这种风险也在一定程度上被法律所容忍,而未必达到应受刑罚处罚的危险程度。

其实,用户通过浏览器访问网站和利用网络爬虫访问网站的流程别无二致,都遵循HTTP协议等互联网操作规范。用户利用浏览器访问网站数据的流程大体可以分为四步:第一步,输入特定网址并点击访问;第二步,浏览器将访问请求发送到指定网站服务器;第三步,服务器根据该请求返回介绍网页内容和布局的源代码数据;第四步,用户就可以在浏览器上浏览、复制、下载服务器返回的相应数据。上述步骤与网络爬虫访问网站的代码流程基本相同,只是这些步骤被代码整合为一个程序,如图1所示。因此,“网络爬虫只是普通用户使用Web浏览器的更快版本”,是用代码一步到位而已。

图1 网络爬虫抓取数据的简单代码

正因如此,“反反爬行为”作为网络爬虫行为的流程之一,其目的也在于实现模仿真实用户利用浏览器访问网站,是遵循互联网访问数据规范的行为,不会也不能破坏计算机系统安全。以应对UA识别、IP限制、验证码的“反反爬行为”,即UA伪装、IP代理、自动识别验证码为例,UA伪装应对UA识别的原理是,修改网络爬虫程序显示的User-Agent信息,让服务器认为访问网站的不是爬虫机器人而是真实用户。那么,UA伪装的目的就仍在于复刻真实用户利用浏览器访问网站的过程,恰是遵循互联网访问数据规范的行为。况且,这种变换自身UA标识的UA伪装行为,还是浏览器自带的功能,是被互联网允许的用以提升用户体验的措施。因为UA识别的功能主要在于为不同类型客户端(即用户方,包括网络爬虫)提供有针对性的服务,而客户端想要什么类型、版式的页面设计,这是客户端的需求。因此,UA伪装不会也不能扰乱计算机信息系统的正常运行。

而应对IP限制的IP代理行为,前文已述,是网络使用的常态,使用多台设备(如电脑、平板或手机),就意味着使用多个IP地址。就像更换电话号码再次拨打电话一样,更换IP地址的IP 代理行为本身不会破坏计算机系统安全,不具有可谴责性。同样,自动识别验证码属于中性的计算机技术,其相对于手动输入验证码而言只是加快了登录速度。更何况,高级编程语言为了提高机器人访问网站的效率,都自带具有自动识别验证码功能的库,供编程人员使用,这便不能认为对验证码的自动识别是一种扰乱计算机正常运行的行为。

事实上,网络爬虫之所以存在扰乱计算机系统正常运行的风险,关键不在于其破解了反爬虫措施,而在于爬虫短时间内高频次的访问。就单次访问而言,应当说网络爬虫给服务器带来的负担,比普通用户利用浏览器访问网站更轻。因为对于同一网站的访问,“网络爬虫只查看纯文本,而人类用户使用浏览器时查看的网页则经过了网站渲染”,意味着网站为了使网页美观需要反馈并加载更多内容,给服务器增加更多负担。但就多次访问而言,单位时间内爬虫访问网站的速度远高于真实用户,这会使得大量访问短时间内请求服务器响应,如果超过了网站的承载能力则会导致服务器拥堵甚至崩溃。在此意义上,或许可以认为“反反爬行为”升高了爬虫扰乱计算机正常运行的风险,因为反爬虫措施对爬虫的阻止确实在客观上降低甚至消除了此风险。但即便如此,“反反爬行为”对计算机系统安全的侵害风险,也未必达到了应受刑罚处罚的危险程度,因为网络爬虫作为促进数据流通利用的基础互联网手段,其风险在一定程度上为法律规范所容忍。根据《数据安全管理办法》第16条的规定,自动化访问收集流量超过网站日均流量三分之一的,才达到严重影响网站运行的程度。这表明网络爬虫所带来的扰乱计算机系统的风险,在上述标准范围内,是为法律所接受和容忍的。更何况,当前许多爬虫程序设计者也会有意识地控制爬虫单位时间内访问网站的频率,以防止扰乱计算机正常运行。

因此,爬取公开信息行为是否具有侵害计算机安全的重大风险,还需要结合具体情境进行判断,而不能当然认为网络爬虫行为只要绕过反爬虫措施就会侵害计算机系统安全。至于,绕过反爬虫措施抓取公开信息行为是否确实侵害了刑法保护的数据安全法益,则需要进一步追问将数据安全法益解读为数据控制权这一观点的正当性、合理性、可行性。

网络爬虫侵害数据安全法益的内涵阐释

若认可数据安全法益的内涵是控制数据载体的权益或秩序,则在大数据时代必须回应的问题是,首先,数据控制者(如网络平台)禁止公众获取可浏览的公开信息(即禁止复制、下载)的此种控制权,是否具有正当性?其次,数据控制者(如互联网企业)禁止竞争对手获取(仅获取而非使用)公开信息的该种控制权,是否具有合理性?最后,数据控制者禁止他人获取“信息内容公开但代码保密”的数据的这些控制权,是否具有可行性?基于对上述问题的思考,本文认为将刑法保护的数据安全法益解读为数据控制权,恐怕会与整体法秩序相矛盾,且容易导致数据垄断。相比之下,以信息安全为本位的数据安全法益,更为契合刑法罪名体系,能够合理平衡数据权益、明确划定内部和外部网络空间,应当得到提倡。

(一)以载体控制为本位的数据安全秩序再思考

如果认为刑法保护的数据安全法益的内容,是对数据的控制权益,那么“反反爬行为”无疑侵害了数据安全。因为反爬虫措施正是数据控制者拒绝爬虫访问数据的具体表现,而“反反爬行为”则直接违反了这种拒绝网络爬虫的控制。因此,绕过反爬虫措施抓取公开信息的行为,同样侵害了此种数据控制权。

但是,数据控制者是否当然享有如此排他性质的数据控制权,值得再三斟酌:首先,从法秩序统一的层面考虑其正当性,刑法保护所谓“数据控制权”的结论可能会与前置法的规定相冲突。如按照《民法典》第1036条和《个人信息保护法》第13条的规定,合理获取合法公开的个人信息,不需要取得个人同意,即使未经该自然人授权,也不负民事责任和行政责任。然而,在刑法保护数据控制权的立场下,绕过反爬虫措施抓取公开信息的行为不负民事、行政责任,却需要承担非法获取计算机信息系统数据罪的刑事责任,这显然背离了法秩序统一的原理,使得针对同一行为的处理,刑法规范与民法、行政法的规范相矛盾。

不仅如此,在竞争法视域下,绕过反爬虫措施抓取数据的行为,乃至进一步利用数据的行为,完全可能属于正当的市场竞争行为,相反,阻止网络爬虫抓取数据的举措则可能构成垄断。如在著名的美国HiQ诉LinkedIn (领英)案中,HiQ未经授权爬取LinkedIn网站上公开信息的行为,不构成美国《计算机欺诈和滥用法》规定的“未经授权进入计算机并获取数据”的犯罪行为。反而是LinkedIn网站采用技术手段阻碍HiQ抓取数据的行为,被认定滥用了其在职业社交网络市场中的优势地位,侵害公共利益且违反竞争法精神。这一案件判决所依据的竞争法精神在我国判例中也有体现,即在我国首例涉微信数据权益认定不正当竞争案中,法院明确提到网络经济是共生经济,以同类资源共享为特点,基于此网络平台所掌握的数据资源相应具有共享性和开放性。“如果其他经营者‘搭便车’式地利用了网络企业所掌握的数据资源开展经营活动,只要不是对他人数据资源破坏性利用或有违法律规定,且能够给消费者带来全新体验的,一般不应被认定为不正当竞争。”可见,在竞争法视域下,绕过反爬虫措施抓取数据的行为是否具有不正当性,犹未可知,如果当然将数据控制权作为网络爬虫侵害的刑法法益,不仅违反法秩序统一原理,也与刑法谦抑的基本精神相矛盾。

其次,从数据流通必要性来看其合理性,过于强调对数据载体控制权的保护,意味着完全以数据控制者的意愿决定数据这一生产要素的去留,极易导致实践中数据孤岛和数据垄断的发生,不仅与我国所强调的安全与发展并重的数据安全观相背离,也与当前理论上关于数据权益保护的研究结论相左。具体而言,我国《数据安全法》第13条确立了数据安全与发展并重的数据安全观,第14条明确了国家实施大数据战略,鼓励和支持数据在各行业、各领域的创新应用,这离不开数据要素的流通和共享。由于数据具有可复制性和非竞争性,一个使用者对数据的使用并不减少它对其他使用者的供应,增加一个数据利用主体也不会减少任何其他主体对数据的使用,因此数据的流通和共享放大了数据价值,使得数据在各行业、各领域被创新应用成为可能。但是,与此相悖的是,当前以知名互联网企业为代表的数据控制者均已表现出数据垄断的倾向,拒绝分享数据,即便是信息内容公开的数据。如新浪微博、淘宝网、京东均在其法律声明或用户协议中规定,禁止任何人在未取得淘宝或京东许可的情况下,复制、抓取、使用淘宝或京东网上的任何数据。可想而知,过于强调对数据控制权的保护,其结果将是数据控制者以“法益”为盾牌的数据垄断。

正因觉察到实践中的数据垄断倾向和数据孤岛现象,当前民法学界关于数据权益的研究多认为,虽然企业对其控制的数据享有一定程度支配性和排他性的财产权,但该种数据财产权属于新型财产权。这种财产权的“新”就体现在,即便是处于企业控制中的非个人数据,也涉及个人利益、社会经济利益、公共利益等多种利益。由此带来了数据保护的多功能要求,即数据保护不仅是为了企业自身的经济追求,还需要实现数据所承载的社会经济功能、信息社会功能、公共管理功能等。其中,数据保护需要承载的社会经济功能和信息社会功能意味着,即便是企业出于私人经济利益对数据予以保护,也不能限制数据仅满足单个企业主体的经济追求,更不能妨碍数据流通所带来的信息流通。然而,刑法若保护数据载体控制权,则相当于是将数据按照传统所有权的方式予以保护,认为数据控制者可以对数据进行完全排他和独占的控制,这显然不符合数据所具有的非竞争性和非排他性的特征,也只能发挥数据对于单个主体的效用,不利于数据的社会经济功能的发挥。

最后,从计算机技术层面考虑其可行性,强调对数据控制权的保护与互联网固有的开放性相抵触。互联网的开放性是网络技术设计的基本组成部分,当计算机所有者决定托管互联网服务器并通过互联网提供文件时,其默认公众能够访问这些文件,并且“访客不需要是一个人,它可能是一个机器人,即自动运行的计算机程序”。没有理由认为普通用户可以访问的数据,如果网络爬虫绕过反爬虫措施访问则不被允许。并且,已访问到的数据是否仍处于私人网络空间,或者是否还存在代码保密性,是值得推敲的。已有学者正确地指出,用户浏览网络公开信息,以服务器根据访问请求返回数据代码为前提,因此“浏览公开信息并非是直接获取公开信息,而是在获取数据后从中提取了信息”,此时信息所对应的数据代码已被用户获取,不具有所谓的代码保密性。可见,基于数据控制权或代码保密性而认为网络爬虫无权抓取公开信息的观点存在问题,“控制性标准”实际上扩大了非法获取计算机信息系统数据罪的适用范围。

(二)以信息安全为本位的身份权限概念之提倡

将数据安全法益解读为数据控制权的观点,其虽然看似清晰地划定了内部网络空间(或称私人计算机系统)的范围,意味着侵入这一私人领域的行为都应受到刑罚处罚,但实际上使得数据控制者的权益范围过于宽泛,不仅违背了法秩序统一原理,还容易导致平台的数据垄断,在正当性、合理性和可行性上存疑。

可以看出,刑法规制网络爬虫技术的难点在于,如何明确划定公众可访问的外部互联网环境与相对封闭的内部网络空间的界限,使刑法既不阻碍数据依法自由流动,从而最大限度地促进数据资源的有效利用,又能够有效保护内部网络空间的相对私密性,还要符合刑法基本原则与法秩序统一原理。对此,本文认为,能够相对隔绝出保密信息所在网络空间范围的“访问权限”,即基于特定身份(如管理员身份)或原因(如付费享有)享有的访问保密信息的权利大小及范围,应当能够实现这一目的。换言之,应当将数据安全法益解读为,以保护信息安全为本位的信息保密、完整、可用之安全状态,或称保护保密信息免受缺乏特定权限者访问、使用、破坏的网络安全秩序。具体到非法获取数据行为侵害的内容,则应当是特定身份用户才有权访问的信息的保密状态。据此,只有当网络爬虫具有突破用户访问权限限制而侵害信息保密性的功能时,爬取数据行为或提供爬虫程序行为,才构成非法获取计算机信息系统数据罪或提供侵入计算机信息系统程序罪。

这是因为,首先,以访问保密信息为权利内容的特定访问权限,在明确划定公共网络空间与私人网络空间界限上具有可行性,有利于实现刑法的行为规范功能。在计算机技术领域,可访问网络系统的用户的范围,可谓是辨别该系统开放性大小的直观要素:若某一网络空间,公众一经免费注册均可访问,则该网络空间与公园和广场相似,具有开放性和公共性,如微博等社交平台;若某一网络空间,非特定身份者(如管理员、付费会员等)不可访问,则该特定网络空间不对外开放,具有相对封闭性。可见,基于身份的访问权限明确了网络环境中的私人虚拟空间范围,即只有拥有一定权限的人才能进入并访问数据的空间,系私人网络空间或称内部网络空间。并且,由于该特定网络空间具有相对封闭性,非拥有权限者不能访问,故该空间内的信息均具有相对保密性。因此,特定用户访问权限的判断,并不同于UA识别等反爬虫措施语境下的“用户识别”,因为反爬虫措施阻碍的并不是访问用户而是访问方式,即所有普通用户均有权访问设置反爬虫措施的网站,只是不能采用网络爬虫自动化程序高频次访问,这便不能认为反爬虫措施阻止爬虫访问的空间是相对封闭的私人网络空间。总而言之,私人网络空间一定存在相对的信息保密性,该空间中的内容只能为特定范围的用户访问。

其次,将非法获取数据行为侵害的法益解读为特定身份用户才有权访问的信息的保密状态,而非所谓“数据控制权”,可以较好地平衡数据平台与普通用户之间的数据权益,具有合理性。一方面,数据平台可以将具有重要价值的数据存储在相对封闭的私人网络空间中,禁止没有权限的互联网用户任意访问。如此,即便利用技术手段抓取的是不足以认定为商业秘密的其他商业数据信息,虽不构成侵犯商业秘密罪,也可以因其未经授权侵入了相对封闭的私人网络空间,破坏了信息保密性,而将该行为以非法获取计算机信息系统数据罪定罪处罚。另一方面,已经公开信息内容的数据通常允许普通用户访问,在不扰乱计算机系统正常运行的前提下,没有理由拒绝用户采用网络爬虫程序等更高效的方式访问公开信息。这不仅是因为,信息获取自由是被世界各国普遍认可的公民基本权利,可以在我国《宪法》第40条规定的通信自由权、第47条关于公民自由进行科学研究等文化活动的规定中找到依据,“禁止任何人包括企业以任何方式消减这种社会权利或功能”。更是因为“从网站上抓取数据,而不是手动记录信息,这并不会改变分析结果,爬虫仅仅是一种技术进步,使信息收集更加容易,这与用录音机代替书面记录、用智能手机的全景功能代替从不同位置拍摄一组照片没有什么区别,”没有理由阻止公众享受技术带来的便利。并且,刑法保护信息安全的观点,也与民法学界关于数据交易的本质在于信息服务的理论阐释相契合。当前民法学界越来越认识到,数据交易未有实质效果的原因在于,以往将数据商品化的努力多追求数据确权,将数据视作一种固定的财产性标的或权益予以流转。但是,数据并非依赖人类的创造,而是人类活动的“副产品”,并且这种“副产品”的价值来源于其大量聚集后所形成的“信息矿产”,可以供后续整理、挖掘或成为机器学习的原料,所以数据的充分流通才符合社会的整体利益。因此数据交易的本质仍然是信息服务,“数据只是作为信息服务的数字化工具存在,这种介质的拷贝或访问应当理解为信息服务的实现方式”。

最后,保护重要的信息内容免受缺乏权限的访问,符合刑法体系和立法原意,具有正当性。从刑法罪名体系来看,除“非法获取计算机信息系统数据罪”外,我国刑法还规定了9个非法获取数据类罪,均意在保护关系到国家安全、知识产权、公民人身安全等的重要信息,而非数据载体。同时,从刑事立法原意来看,之所以增设非法获取计算机信息系统数据罪,是考虑到“一些不法分子利用技术手段等非法侵入上述规定以外的计算机信息系统,窃取他人账号、密码等信息,……严重危害网络安全。对这类严重违法行为应当追究刑事责任”。可以看出,增设本罪的目的在于保护“他人账号、密码等信息”。况且,刑法法益是值得刑法保护的重要利益,该种利益所具备的重大价值需要大于将侵害该利益之行为规定为犯罪可能造成的危害,而数据的价值恰恰体现在其反映的信息内容上。所以,将非法获取计算机信息系统数据罪的法益定位为,特定身份权限用户有权访问的信息的保密状态,或称使保密信息免受缺乏权限之访问的网络安全秩序,具有法理上的正当性。

因此,根据以保护信息安全为立场、以特定身份的访问权限为判断标准的数据安全法益新解读,只有“反反爬行为”突破身份访问权限的限制,进而侵害私人网络空间的信息保密性时,才成立相应数据犯罪。而绕过反爬虫措施抓取公开信息的行为,并未侵害信息保密性,不构成非法获取计算机信息系统数据罪,并且提供该种网络爬虫程序的行为,也不应构成提供侵入计算机信息系统程序罪。

结语

在利用网络爬虫技术抓取数据的过程中,绕过反爬虫措施的“反反爬行为”未突破封闭网络空间的特定用户访问权限,不是非法侵入计算机的行为,也没有侵害刑法保护的计算机系统安全和数据安全,不应也不能作为爬取公开信息行为及提供该爬虫程序行为的主要依据。虽然绕过反爬虫措施抓取公开信息的爬虫行为,可能因抓取频率过快而造成服务器崩溃,构成破坏计算机信息系统数据罪。但是此种破坏计算机安全的后果并非“反反爬行为”绕过反爬虫措施所致,而应归咎于网络爬虫的过快抓取。对此,爬虫程序设计者均会有意识地控制爬虫单位时间内访问网站的频率,以防止扰乱计算机正常运行,毕竟使用网络爬虫技术的目的在于自动化获取数据,破坏计算机安全与此目的相悖。

-向上滑动,查看完整目录-

《浙江社会科学》2024年第4期法学要目

1.论数字法治政府的科层制基础及其发展

作者:王春业(广东外语外贸大学区域法治研究院,广东省习近平新时代中国特色社会主义思想研究中心)

内容提要:数字法治政府建设不应全盘否定科层制。数字法治政府并未脱离科层制架构,甚至依托科层制的专业化、多层等级优势,在科层制的组织架构下运行,具有科层制的逻辑基础。与此同时,通过先进数字技术的运用,数字法治政府又在科层制基础上,实现科层内部专业部门的协同,也使得层级间信息传播更快,是对科层制继承式的发展。未来在数字法治政府建设上,要加强政府整体性建设,将政府的内部协作和运行过程内隐化,对外则以整体性政府形象为社会公众提供服务;要加强政务客户办事端建设,使得公众可以通过各种方式便捷地获取公共服务;要加强与数字化相适应的法律规范建设,为数字法治政府提供更多法律依据。

关键词:科层制;专业化部门;信息孤岛;数字法治政府

2.爬取公开信息行为入罪的逻辑解构与标准重构

——从“反反爬行为”的性质切入

作者:苏桑妮(浙江工业大学数字法治研究院,浙江工业大学法学院)

内容提要:在涉及网络爬虫程序的数据犯罪案件中,绕过反爬虫措施的“反反爬行为”因其“技术侵入性”和“法益侵害性”,成为爬取公开信息行为入罪的主要依据。然而,反爬虫措施不是计算机安保措施,故“反反爬行为”的“侵入性”在技术层面上并不成立。同时,为保护“数据控制权”而认定绕过反爬虫措施抓取数据行为侵害数据安全的观点,亦不具有正当性、合理性和可行性。实际上,基于计算机技术的原理、数字经济发展的需求、维护法秩序统一的需要,只有当“反反爬行为”突破基于特定身份的访问权限,从而破坏封闭网络空间的信息安全时,相应爬取数据行为和提供爬虫程序行为才成立数据犯罪。因而绕过反爬虫措施抓取公开信息的行为,不应构成非法获取计算机信息系统数据罪。

关键词:反反爬行为;网络爬虫;公开信息;非法获取计算机信息系统数据罪

《浙江社会科学》Zhejiang Social Sciences(月刊),创刊于1985年(原名《探索》,1990年改为现刊名),由浙江省社会科学界联合会主办,主要刊登人文、社会科学领域的优秀学术理论文章,也是反映浙江社科学术研究动态的窗口。自创刊以来,质量稳步上升。《浙江社会科学》现为全国中文核心期刊、全国人文社会科学核心期刊、中文社会科学引文索引(CSSCI)来源期刊、首批国家社科基金资助期刊。《浙江社会科学》立足浙江,面向全国,面向世界,以改革开放及现代化进程中的重大现实与理论问题为组稿、发稿重点,坚持学术性、时代性、思想性,以推动学术发展、繁荣社科事业为己任。

法宝新AI·智能写作

无论是工作汇报,产品介绍,还是法律研究报告、市场宣传文案,法宝智能写作系统都能为您提供高质量写作支持,满足法律工作者日常学习工作中各类领域的写作需求,提供源源不断的创意与灵感,全面助力您的文案写作。您可以在平台上选择不同的写作模型,输入关键词和要点,即可自动生成文档大纲与内容。平台内嵌法宝V6数据库,让您的内容创作有据可依。与此同时,智能写作平台还支持实时对生成文档进行修改和优化,确保文章撰写的准确性。

—— 系统亮点 ——

一键生成文章大纲——输入关键词和内容要求,即可自动生成文章大纲,为您提供创作起点和清晰明了的写作思路。

智能生成文章内容——GPT模型结合法宝数据库快速生成逻辑自洽、内容丰富的文章。

法宝V6数据库支持——查阅生成结果的相关法律法规、学术期刊等信息。可准确理解法律术语,帮助生成符合要求的法律文件;能够自动匹配对应法律法规,实现法理逻辑处理自动化,增强文章权威性与可信度。法宝智能写作能及时跟踪法律法规的最新变化,避免使用已失效或废止的法律条文作为参考。

责任编辑 | 郭晴晴

审核人员 | 张文硕 王纪元

本文声明 | 本文章仅限学习交流使用,如遇侵权,我们会及时删除。本文章不代表北大法律信息网(北大法宝)和北京北大英华科技有限公司的法律意见或对相关法规/案件/事件等的解读。