爬取8600万文件被罚22亿：Spotify不赢钱，赢的是规则

码上闲叙

2026-04-16 21:32 ·北京

8600万个音频文件，3.22亿美元罚款——但Spotify真正到手的赔偿可能接近零。这笔账怎么算？

美国纽约南区法官杰德·S·拉科夫（Jed S. Rakoff）本周的缺席判决，把"安娜的档案"（Anna's Archive）钉在了22亿元人民币的罚单上。更蹊跷的是，Spotify拿了3亿，却跟版权没半点关系。

钱从哪来：2220万 vs 3亿，两种完全不同的算法

罚款拆成两笔，逻辑天差地别。

唱片公司拿走的2220万美元，是传统版权侵权的路子。环球、索尼、华纳三家，就148首确认被侵权的作品，按法定上限每首15万美元计算。以行业尺度看，这是"小额案件"——大牌唱片公司往常开口都是十亿级别。

Spotify的3亿美元完全是另一套规则。它不拥有平台上任何音频的版权，没法告侵权。但它能告"绕开技术保护措施"——DMCA第1201条的反规避条款。

法官按12万个样本文件算，每项规避行为顶格罚2500美元。注意：这笔钱不看你拿文件干了什么，只看你"绕过去"这个动作本身。

「原告无需拥有核心作品的著作权，也无需证明实际损害。」——这是判决书里埋下的钩子。

技术细节：身份验证系统成了"法律保护罩"

Spotify防爬的核心是一套身份验证机制。用户登录、接口鉴权、速率限制——这些常规工程手段，在DMCA框架下被定义为"技术保护措施"。

安娜的档案去年12月宣布爬了8600万文件，计划用BitTorrent分发。1月，Spotify联合三大唱片公司起诉。运营者全程没露面，法院直接缺席判决。

关键数字：12万样本文件→3亿美元。如果按8600万的总量比例推算，理论上的索赔天花板极高。但法官只采信了Spotify律师调取的证据范围内的数量。

这留下一个操作空间：平台方可以通过控制"取证范围"来调节索赔规模。技术保护与法律索赔的衔接点，成了新的博弈场。

AI行业的隐形炸弹：训练数据合规的新变量

判决的真正冲击波在AI领域。

安娜的档案给自己的行为贴过标签："保存性档案"（preservation archive）。这套说辞跟AI实验室的话术高度雷同——"我们爬取是为了保存人类知识，顺便训练模型"。

英伟达正在吃的官司直接相关。纳泽米安诉英伟达案（Nazemian v Nvidia）的原告指控，英伟达从安娜的档案获取了约500TB书籍数据训练模型。修正后的起诉书提到了内部通信：英伟达数据战略团队协商过"高速访问权"。

目前该案按直接侵权起诉。但Spotify判决把第1201条塞进了原告的工具箱——只要内容曾经放在身份验证系统后面，就能告规避，不用证明版权归属，不用算实际损失。

商业AI实验室爬过的几乎所有网络内容，都符合这个条件。登录墙、会员专区、开发者接口——这些日常设计瞬间变成了法律武器库。

执行困境：匿名运营者让天价罚单成符号

Spotify几乎不可能拿到钱。安娜的档案运营者身份不明，且有过多次"死而复生"的记录：执法行动→域名被封→新域名上线，循环往复。

3.22亿美元更像一份"判例投资"。

拉科夫法官的判决逻辑一旦固化，下一次面对非匿名被告时，平台方可以照搬这套公式：技术保护措施被绕过→按文件数量×2500美元→索赔成立无需版权证明。

对内容平台：身份验证系统的法律价值被重估。以前是做用户管理和反爬的工程决策，现在附带巨额索赔潜力。

对AI公司：训练数据来源的合规审查需要新维度。不仅问"有没有版权"，还要问"有没有绕开任何登录或验证机制"——后者举证更容易，赔偿计算更机械。

对爬虫开发者：成本模型彻底改写。以前算带宽和存储，现在得加一项"法定赔偿×文件数"的期望值。

安娜的档案大概率会继续换域名运营。但这份22亿的账单，已经贴在了所有数据爬取者的墙上——不是作为警告，是作为定价参考。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴