网络爬虫(又称蜘蛛爬虫、网络机器人),是指依据设定的条件,通过自动抓取网络中符合条件的内容,搜集、提取所需的页面数据并自动下载到本地,是一种高效率的自动化下载程序或脚本。
现如今大数据时代,万千信息都以数字化的形式呈现、存储在网络之中。而这些网络数据信息对于不同人群有着不一样的吸引力,于是就出现了对网络数据收集、整理、分析的客观现实需求。数据是无价之宝,谁拥有了大量有用的数据,谁就拥有了决策的主动权。网络爬虫具有高效、自动、技术难度低的特性,目前已被广泛而成熟地应用于各种互联网平台、大数据领域及应用场景,如搜索引擎、数据采集、广告过滤、大数据分析等。
网络爬虫是把“双刃剑”
网络爬虫技术的应用能够显著提高工作效率,特别是对于海量数据的收集和整理。网络爬虫本身是项中立的技术,合理合法地使用,并不会对他人造成影响。但如果违反行业规则、法律法规,就如同“爬虫”之名所述,变成一场虫灾,将导致网络的拥堵、崩溃,给网站的营运者造成巨大的损失。
最高人民法院“中国裁判文书网”作为裁判文书官方发布网站,受到了各种检索平台和大数据公司的光顾,大量的公司和平台通过爬虫技术抓取裁判文书网的文书内容,经常导致网页严重拥堵,普通群众难以正常使用该网站。2019年,最高人民法院发布的《关于“中国裁判文书网”网站建设建议的答复》提到,“大量技术公司通过爬虫系统无限制地访问非法获取裁判文书数据,造成网站负荷过大,大量正常用户请求堵塞,访问出现速度慢或部分页面无法显示等现象。”
网络爬虫在爬取网页数据的过程中,会模拟真实客户不间断地向网页提交请求以获取页面数据,这就给网络通道造成严重堵塞,同时占用大量网站流量,导致无法正常返回数据,出现严重的卡顿、最终致网站瘫痪。这种冲击造成的后果已不亚于以破坏目标服务器、服务或网络正常流量的“DDos”恶意攻击行为,给网站运营商、经营者的日常经营和数据安全都造成严重的损害。
网络爬虫技术的法律风险
正因为网络爬虫技术是双刃剑,爬虫技术应当在一定的制约之下使用,否则即便是中立的技术手段也会给使用者带来法律风险甚至是刑事责任。
网络爬虫的行业制约
一、行业规范之robots协议的前置约束
互联网秉持开放、平等、协作、快速、共享的精神,不断发展至今,为此互联网的每一员应当遵循互联网中共通的制度、规则和行业规范。
robots协议,是网站所有者在置于网站根目录下的文本文件robots.txt中记录哪些网页内容不应被抓取,哪些网页内容可以抓取,以提示拟对该网站进行爬取的爬虫程序,这是对网络爬虫程序基于行业规范的一种前置约束,其只对内容进行告知,更多的是提示、引导如何访问网站、爬取数据,本身不存在禁止或阻碍爬取数据的功能。
裁判文书网robots协议节选
尽管robots协议有违互联网开放和共享的精神,但一家商业公司利用行业公认的协议保护数据和利益,限制竞争对手,属于正常的商业行为。
中国互联网协会《互联网搜索引擎服务自律公约》第七条: “遵循国际通行的行业惯例与商业规则,遵守机器人协议(robots协议)。机器人协议(robots协议)是指互联网站所有者使用robots.txt文件,向网络机器人(Web robots)给出网站指令的协议。”
在被称为“robots协议第一案”的百度诉奇虎360不正当竞争案中,我国法院在判例中将其认作行业规则。法院在判决中指出“ 在被告推出搜索引擎伊始,其网站亦刊载了robots协议的内容和设置方法,说明包括被告在内的整个互联网行业对于robots协议都是认可和遵守的。其应当被认定为行业内的通行规则,应当被认定为搜索引擎行业内公认的、应当被遵守的商业道德”。
二、反爬措施的一般限制
鉴于robots协议是一种自律规范,如果每次面对爬虫无视道德约束的干扰都通过法律途径解决,不仅时效慢而且诉讼成本也特别高。因此大多数网站经营者会通过增加专门的反爬程序,防止爬虫脚本在本网站获取数据。
常见的反爬措施包括:(1)通过UA识别爬虫;(2)设置IP访问频率,如果超过一定频率,弹出验证码;(3)通过网络并发识别爬虫;(4)请求时间窗口过滤统计;(5)限制单个ip/api token的访问量;(6)识别出合法爬虫;(7)蜜罐技术(一种对攻击方进行欺骗的技术)等。
比如我们在日常生活中经常见到的12306购票网站的验证码,这是网站反爬措施识别人机访客的重要措施之一。反爬虽然存在多种不同的技术,但该等技术本质上都是网站运营者采取的阻止爬虫批量访问和抓取信息的技术手段,因此从法律上并没有实质性区别。
网络爬虫的法律风险
一、技术行为本身带来的风险
网络爬虫是一项工具,使用该工具的行为,即有正反两个方面,既可以发挥积极正面的价值,又可能由于技术本身的特点,带来一定的法律风险。
(一)涉嫌违反《反不正当竞争法》构成不正当竞争
1.无视网站设置的robots协议而随意抓取网站内容行为可能违反《反不正当竞争法》构成不正当竞争
【案例】北京微梦创科网络技术有限公司(新浪微博)与北京字节跳动科技有限公司不正当竞争纠纷二审
【法院认为】在数字经济时代,数据日益成为企业重要的生产要素,数据资源的获取与利用是极为重要的一种资源配置。网站经营者对数据的收集、整理等基本都付出了相应的人力、物力、财力和时间等经营成本。robots协议在某种意义上已经成为维系企业核心竞争力,维系市场有序竞争的一种手段。尽管robots协议客观上可能造成对某个或某些经营者的“歧视”,但在不损害消费者利益、公共利益及竞争秩序的情况下,应当允许网站经营者通过robots协议对其他网络机器人的抓取进行限制,这是网站经营者经营自主权的一种体现。
2.绕过或破坏反爬措施爬取数据同样有可能违反《反不正当竞争法》之规定
《反不正当竞争法》第十二条第二款:“经营者不得利用技术手段,通过影响用户选择或者其他方式,实施列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:…(四)其他妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为。
因此,如果爬虫使用者未经授权利用爬虫技术采集了竞争对手的数据用于自身企业的经营,该“搭便车”的行为便可能被认定为是截取了平台经营者的竞争优势,损害其商业资源、妨害其正常服务,因而构成不正当竞争。
(二)涉嫌构成非法获取计算机信息系统数据罪、非法侵入计算机信息系统罪、破坏计算机信息系统罪等刑事犯罪
数据日益成为企业重要的生产要素,有些网页、数据信息对于竞争对手或者上下游关联行业来说,具有非常高的经济价值,为此部分人便利用网络爬虫不惜代价去获取这些网页资源。然而如此使用网络爬虫,一不小心就会落入刑事犯罪的深渊。爬虫技术本身,使用不当则很有可能触犯到以下刑法罪名:
1. 当使用爬虫技术进入到特定程序之中,甚至获取了特定的数据,如果该数据的性质、获取的价值超过法定限制,便会涉嫌“非法获取计算机信息系统数据罪”。如何认定“非法获取计算机信息系统数据罪”中的“情节严重”“情节特别严重”,《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》给予了明确的规范:
情节严重
(一)获取支付结算、证券交易、期货交易等网络金融服务的身份认证信息十组以上的;
(二)获取第(一)项以外的身份认证信息五百组以上的;
(三)非法控制计算机信息系统二十台以上的;
(四)违法所得五千元以上或者造成经济损失一万元以上的;
(五)其他情节严重的情形。
情节特别严重
(一)数量或者数额达到前款第(一)项至第(四)项规定标准五倍以上的;
(二)其他情节特别严重的情形。
2. 如果在使用爬虫技术的同时,给网站经营者经营的网站、计算机信息系统造成了破坏,便会涉嫌“破坏计算机信息系统罪”。如何认定“破坏计算机信息系统罪”中“后果严重”“后果特别严重”,《最高人民法院、最高人民检察院关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》同样给予了规范:
后果严重
(一)造成十台以上计算机信息系统的主要软件或者硬件不能正常运行的;
(二)对二十台以上计算机信息系统中存储、处理或者传输的数据进行删除、修改,增加操作的;
(三)违法所得五千元以上或者造成经济损失一万元以上的;
(四)造成为一百台以上计算机信息系统提供域名解析、身份认证、计费等基础服务或者为一万以上用户提供服务的计算机信息系统不能正常运行累计一小时以上的;
(五)造成其他严重后果的。
后果特别严重
(一)数量或者数额达到前款第(一)项至第(三)项规定标准五倍以上的;
(二)造成为五百台以上计算机信息系统提供域名解析、身份认证、计费等基础服务或者为五万以上用户提供服务的计算机信息系统不能正常运行累积一小时以上的;
(三)破坏国家机关或者金融、电信、交通、教育、医疗、能源等领域提供公共服务的计算机信息系统的功能、数据或者应用程序,致使生产、生活受到严重影响或者造成恶劣社会影响的;
(四)造成其他特别严重后果的。
二、爬取内容属性带来的风险
除了上述爬虫技术应用行为本身会给使用者带来法律风险,根据爬取内容的性质、领域的不同,爬虫控制者还可能由于抓取到个人信息、著作权或商业秘密范围的数据等受法律保护的信息,而构成违法、违规,甚至触犯刑事犯罪的风险。
(一)侵犯公民个人信息罪
除《民法典》《网络安全法》中对公民个人信息的保护之外,违反国家有关规定,向他人出售或者提供公民个人信息,情节严重的,构成犯罪;在未经用户许可的情况下,非法获取用户的个人信息,情节严重的也将构成“侵犯公民个人信息罪”。因此无论是通过爬虫技术获取了符合刑法“公民个人信息”范围内的内容,以及转而出售给他人的行为,都可能涉嫌刑事犯罪。
【案例】黎某、逯某侵犯公民个人信息罪案
被告人黎某在湖南省浏阳市成立了浏阳市泰创网络科技有限公司(自然人独资),该公司设有返利部、客服部、招商部等部门。被告人逯某受雇于被告人黎某,作为公司技术员,每月工资一万元。自2019年11月,被告人逯某在商丘市睢阳区其家中利用自己开发的爬虫软件,通过淘宝网页接口爬取淘宝客户的信息,并将其中淘宝客户的手机号码提供给被告人黎某,用于浏阳市泰创网络科技有限公司经营活动,该公司自2019年11月份至2020年7月份利用该信息经营共获利340187.68元。
经司法鉴定,被告人逯某通过其开发的软件爬取淘宝客户的数字ID、淘宝昵称、手机号码等淘宝客户信息共计1180738048条,被告人逯某将其爬取信息中的淘宝客户手机号码通过微信文件的形式发送给被告人黎某使用共计19712611条。
【法院判决】本院认为,被告人逯某受雇于被告人黎某,二人违反国家规定,非法获取公民个人信息,情节特别严重,其行为均已构成侵犯公民个人信息罪。
(二)侵犯著作权罪
网站经营过程中,无论是网站自己上传的文章、图片或者是网站用户上传的内容,都有存在著作权保护的可能性,因此随意爬取上述受著作权保护的内容并加以使用,有可能侵犯著作权甚至涉嫌“侵犯著作权罪”。
【案例】鼎阅公司及覃某某等人侵犯著作权罪案
被告单位鼎阅公司自2018年开始,在覃某某等12名被告人负责管理或参与运营下,未经掌阅科技股份有限公司、北京幻想纵横网络技术有限公司等权利公司许可,利用网络爬虫技术爬取正版电子图书后,在其推广运营的“鸿雁传书”“TXT全本免费小说”等10余个App中展示,供他人访问并下载阅读,并通过广告收入、付费阅读等方式进行牟利。
根据经公安机关依法提取收集并经勘验、检查、鉴定的涉案侵权作品信息数据、账户交易明细、鉴定结论、广告推广协议等证据,法院查明,涉案作品侵犯掌阅科技股份有限公司、北京幻想纵横网络技术有限公司享有独家信息网络传播权的文字作品共计4603部,侵犯中文在线数字出版集团股份有限公司享有独家信息网络传播权的文字作品共计469部。被告人覃某某等12人于2019年3月被抓获归案。公诉机关于2020年1月10日向北京知识产权法院提起公诉。
【法院判决】鼎阅公司、直接负责的主管人员覃某某等12名被告人以营利为目的,未经著作权人许可,复制发行他人享有著作权的文字作品,情节特别严重,其行为均已构成侵犯著作权罪。
(三)侵犯商业秘密罪
《刑法》第二百一十九条第一款:“以盗窃、贿赂、欺诈、胁迫、电子侵入或者其他不正当手段获取权利人的商业秘密的。”
第二款:“明知前款所列行为,获取、披露、使用或者允许他人使用该商业秘密的,以侵犯商业秘密论。”
因此,如果爬虫使用者在抓取信息的过程中有意地规避了网站经营者设置的保护措施,接触、保存甚至披露了一般用户原本无法访问的信息,而该等信息又构成商业秘密,则爬虫控制者的该等行为存在侵犯他人商业秘密的可能,包括再次转让许可他人使用商业秘密,均有涉嫌侵犯商业秘密罪的刑事风险。
结 语
在当下法律法规制约下,利用网络爬虫技术需要严格遵守相关的行业准则和法律规定,以防稍有不慎,触及法律的边界。后续我们将围绕网络爬虫的刑事风险,为企业开展相关业务提供刑事合规法律分析及风险应对建议。
作者介绍introduction
庞理鹏律师
北京策略律师事务所党支部书记、执行主任,数据合规项目组负责人;
中国信息通信研究院个人信息保护合规审计推进小组成员;
国际信息科学考试学会(EXIN)数据保护官(DPO)&信息安全官、(ISO)双认证律师,并担任该考试协会数据保护官(DPO)授权培训讲师;
北京市律师协会商事犯罪预防与辩护委员会委员、刑事合规研究组成员;
北海国际仲裁院仲裁员;
北京多元调解发展促进会策略区块链与数字经济争议调解中心负责人
田浩男律师
北京策略律师事务所执业律师
拥有丰富的检察机关、纪检监察机关工作经验
执业领域:互联网与金融犯罪、职务犯罪、高管犯罪辩护;刑事合规与企业反腐败/反舞弊调查;财税与商事争议解决等。
特别 声明: 以上 仅代表笔者个人观点,不 代表 策略 律师 及策略律师事务所 出具的 任何形式之 法律意见。 如有意向就相关议题进一步交流 探讨,欢迎与本所 联系!
热门跟贴