《纽约时报》和《每日新闻》的律师正在追加起诉OpenAI,称 OpenAI 工程师意外删除了可能与此案相关的数据。今年秋天早些时候,OpenAI 同意提供两台虚拟机,以便《泰晤士报》和《每日新闻》的律师可以在其人工智能训练集中搜索他们的版权内容。 (虚拟机是一种基于软件的计算机,存在于另一台计算机的操作系统中,通常用于测试、备份数据和运行应用程序)。
出版商的律师在一封信中表示,自11月1日以来,他们和他们聘请的专家已经花了150多个小时搜索OpenAI的训练数据。
但根据上述周三晚些时候提交给美国纽约南区地方法院的信函,11 月 14 日,OpenAI 工程师删除了存储在其中一台虚拟机上的所有出版商搜索数据。
OpenAI 试图恢复这些数据,并在很大程度上取得了成功。 然而,由于文件夹结构和文件名已"不可挽回地"丢失,恢复的数据"无法用于确定新闻原告复制的文章在哪里被用于建立 [OpenAI 的] 模型"。
《纽约时报》和《每日新闻》的律师写道:"原告被迫从头开始重新工作,耗费了大量的人力和计算机处理时间。而昨天才得知,恢复的数据无法使用,其专家和律师整整一周的工作都必须重新进行,这就是今天提交这封补充信的原因。"
原告律师明确表示,他们没有理由相信删除是故意的。 但他们确实表示,这一事件突出表明,OpenAI"最有能力使用自己的工具搜索自己的数据集",以查找潜在的侵权内容。
OpenAI 发言人拒绝发表声明。
在这起案件和其他案件中,OpenAI 坚持认为,使用公开数据(包括《纽约时报》和《每日新闻》的文章)训练模型属于合理使用。 换句话说,在创建像 GPT-4o 这样的模型时,OpenAI 认为,即使它从这些模型中赚到了钱,也不需要为这些示例获得许可或支付其他费用。
尽管如此,OpenAI 已经与越来越多的新出版商签订了许可协议,其中包括美联社、《商业内幕》的所有者阿克塞尔-施普林格(Axel Springer)、《金融时报》、《人物》母公司 Dotdash Meredith 和新闻集团。 OpenAI 拒绝公开这些交易的条款,但据报道,内容合作伙伴 Dotdash 每年可获得至少 1600 万美元的报酬。
OpenAI 既未证实也未否认其人工智能系统在未经许可的情况下对任何特定版权作品进行了训练。
热门跟贴