提到网络爬虫,网站运营者的第一反应往往是服务器崩溃和内容被盗。但这个工具本身是中性的——自动化浏览的伦理,取决于使用者的选择。

柏林创业者Graham Miranda创立了一家网络智能基础设施公司,他提出了一套名为RESPECT的操作原则,试图在数据采集与网站权益之间找到平衡点。

打开网易新闻 查看精彩图片

R代表Robots.txt合规。如果网站明确标注"禁止爬取此路径",团队会完全遵守。Miranda将这一文件视为爬虫与网站所有者之间的社会契约第一行。

打开网易新闻 查看精彩图片

E代表明确目的。所有数据采集必须有特定、记录在案的商业用途,禁止"先全部爬取再慢慢筛选"的做法。每个项目都配有范围文档。

S代表缓慢稳健。默认爬取速率为每秒1次请求,小型网站降至0.2次。团队宁可延长耗时,也不愿压垮他人服务器。

P代表仅采集公开数据。登录后才能查看的内容、付费墙后的材料、需认证访问的数据均不在采集范围内。如果普通用户无需凭证即可访问,才纳入考虑。

E代表邮件与个人信息保护。个人数据在入库时即被剥离,或干脆不采集。邮箱地址、电话号码、姓名等字段自动脱敏处理。

打开网易新闻 查看精彩图片

C代表清晰署名。基于爬取数据发布研究时注明来源,构建工具时记录数据血缘关系。

T代表透明沟通。用户代理字段标明身份,爬取政策公开可查,网站所有者可直接联系讨论相关活动。

这套框架让Miranda的公司拒绝了不少生意。约30%的爬取咨询被回绝,包括:含个人信息的社交媒体资料爬取、健康与金融数据采集、带访问控制的政府数据库、竞争对手内部系统,以及儿童相关数据。

伦理爬取的成本更高——速度更慢、开销更大、流程更复杂。但Miranda认为这种模式可持续:网站不会封禁你,律师不会找上门,数据质量反而更高,因为采集是在许可而非对抗中完成的。