OpenAI进入第9天,公司宣布最先进的模型o1系列已通过应用程序接口(API)全面向第三方开发者开放。这一发布标志着开发者能够将OpenAI的顶尖技术无缝集成到现有的企业级应用或面向消费者的工作流程中。
可是,在OpenAI忙着发布会的时候,一位OpenAI前员工自杀离世。
据美国消费者新闻与商业频道(CNBC)报道,26岁的美国OpenAI公司前研究员Suchir Balaji近期被发现在他位于旧金山的公寓内自杀身亡。旧金山警察局表示,初步调查显示,“没有发现谋杀的证据”。
此前,Balaji曾公开指责OpenAI 的 ChatGPT 应用程序违反了美国版权法。他曾在个人博客写道:OpenAI 在数据的使用方面存在不合理性,因为它未经许可就使用受版权保护的材料训练其模型,侵犯了从程序员到记者等无数原创作者的知识产权。《纽约时报》也表示:Balaji 拥有“独特且相关的文件”,可以对OpenAI的诉讼起到关键性作用。在一定程度上,Balaji成为了吹哨者的角色。
因此,Balaji去世的消息让全球科技圈颇为震动,世界首富、特斯拉CEO埃隆·马斯克(Elon Musk)也关注并转发了相关报道,发出一个“唔”(Hmm)做出评论。
OpenAI 发言人在电子邮件中说:“今天得知这一令人难以置信的噩耗,我们感到非常悲痛,在这一艰难时刻,我们向 Suchir 的亲人表示同情。”
他的去世再次引起了人们对AI道德和合法性的激烈辩论。那么,生成式AI究竟如何侵权?Balaji的一声哨响能唤醒多少人?以下:
1
他的悲剧性死亡为何震惊了科技界?
Suchir Balaji是谁?他是一名印度裔美国人,曾就读于加州大学伯克利分校学习计算机科学,大学期间在OpenAI和Scale AI实习。毕业以后,他选择加入了OpenAI,先后参与过WebGPT的研发,后来又加入GPT-4的预训练团队、o1的推理团队以及ChatGPT的后训练团队,是 21 世纪最具变革性的技术之一 ChatGPT 背后的主要架构师之一。
而这位26岁的年轻人也是OpenAI最直言不讳的批评者。他在OpenAI工作了四年多,最终选择离开了这家公司,理由是担心这家人工智能巨头涉嫌在未经适当同意的情况下使用受版权保护的数据。
在接受《纽约时报》采访时,他解释了像GPT-4 这样的系统如何通过完整复制它们所训练的数据来学习。Balaji在X发布了一篇文章,详细说明他的担忧,也阐明了 AI 训练过程的复杂性。
文章中写道:“虽然生成模型很少产生与其任何训练输入基本相似的输出,但训练生成模型的过程涉及复制受版权保护的数据。如果这些副本未经授权,这可能会被视为侵犯版权,具体取决于模型的特定使用是否符合'合理使用'的条件。由于合理使用是根据具体情况确定的,因此无法对生成式 AI 何时符合合理使用条件做出宽泛的声明。”
文章引用了1976年《版权法》第107条中对「合理使用」的定义:
(1)使用的目的和性质,包括该使用是否具有商业性质或是否用于非营利教育目的; (2)受版权保护作品的性质; (3)所使用部分相对于整个受版权保护作品的数量和实质性; (4)该使用对受版权保护作品的潜在市场或价值的影响。
Suchir Balaji强调,合理使用是一项平衡测试,需要权衡四个因素。ChatGPT 的训练数据不公开,可能看不到对市场价值的影响。《生成式AI对在线知识社区的影响》写明,在ChatGPT发布后,Stack Overflow的访问量下降了约12%,每个主题的提问数量也有所下降。
这种影响体现在各个方面,作业帮助网站Chegg在ChatGPT影响其增长后,股价下跌了40%。
最关键的是,这种利益侵害还在某种“许可”的情况下完成的。OpenAI和谷歌等公司大多和Stack Overflow、Reddit、美联社、News Corp等签订了数据许可协议。鉴于数据许可市场,在未获得类似许可协议的情况下使用受版权保护的数据进行训练也构成了市场利益损害,因为这剥夺了版权持有人的合法收入来源。因为,ChatGPT可能创造了与原始内容形成直接竞争的替代品。
因素(3):所用部分的数量和实质性与整个受版权保护的作品相关
如果输出内容不直接复制受版权内容保护的数据,则属于“合理使用”;如果模型的训练输入包含了受版权保护数据的完整副本,这不利于「合理使用」。
模型训练过程中,如果输出的信息熵(H(Y))低于或等于训练数据的真实信息熵(H(X)),则表明模型输出中包含了较多的训练数据信息。降低输出的信息熵可以减少模型输出中的随机性,从而减少“幻觉”(即虚假信息)的发生。因此,大家会采用基于人类反馈的强化学习(RLHF),倾向于降低模型的熵值,以提高输出的准确性和可靠性。
可是,即使模型输出中不直接复制受版权保护的数据,训练数据中的信息仍可能以某种程度被使用,这可能分散融入到整个输出内容中。通过分析输出中的熵值,可以估计模型输出中有多少内容对应于训练数据集中的信息,从而评估版权内容对模型输出的影响。这么来看,无论如何解释都难以找到支持「合理使用」主张的依据。
在这个过程中,这位年轻人还指出了一个更大的问题:随着人工智能技术越来越多地取代现有的互联网服务,它们经常会产生虚假甚至完全捏造的信息,研究人员称这种现象为“幻觉”。而这种情况会让互联网变得更糟。
Balaji强调说,他的观点是针对的不仅仅是 OpenAI,而是整个生成式 AI。 在他去世前发布的最后一篇 X 帖子中反思道:“我最初对版权、合理使用等知之甚少,但在看到所有针对 GenAI 公司的诉讼后,我变得很好奇。当我试图更好地理解这个问题时,我最终得出结论,对于许多生成式 AI 产品来说,合理使用似乎是一个非常不可信的辩护,因为基本原因是它们可以创造出与它们所训练的数据竞争的替代品。”
不得不承认,Balaji见解加重了 AI 开发人员和版权所有者日益增长的担忧,即需要大量数据来训练复杂模型可能与内容创作者的权利相冲突。
2
哨声响起,究竟能唤醒多少人?
在过去两年时间里,Balaji并不是唯一指出版权问题的人,许多个人和企业起诉了包括OpenAI 在内的各种人工智能公司,认为他们非法使用受版权保护的材料来训练他们的技术,提起诉讼的人包括计算机程序员、艺术家、唱片公司、书籍作者和新闻机构。
其中,《纽约时报》应该其中表现最为积极的。去年,《纽约时报》在美国法院起诉OpenAI和微软公司,指控这些公司未经许可使用其数百万篇文章训练强大的人工智能模型,成为可靠信息的来源。但两家公司都否认了这些说法。
此前,Balaji曾在采访中强调,威胁更为紧张,ChatGPT 和其他聊天机器人正在破坏个人、企业和互联网服务的商业生存能力,这些个人、企业和互联网服务创建了用于训练这些人工智能系统的数字数据。“对于整个互联网生态系统来说,这不是一个可持续的模式。”他告诉纽约时报。
与此同时,很多曾在 OpenAI 和其他科技公司工作过的研究人员警告说,人工智能技术可能会造成严重伤害。但这些警告大多是关于未来风险的,比如人工智能系统有朝一日可能会帮助制造新的生物武器,甚至毁灭人类。
没有法律的束缚,OpenAI、谷歌、微软等公司会走向何方呢?现在看来,OpenAI正在奋力摆脱“非盈利”束缚,急迫地寻找商业化的方向。
在刚刚结束的2024年纽约时报DealBook峰会上,奥特曼亲口表示,起步时,OpenAI并没有计划成为一家产品公司,也不了解我们需要多大规模的资本。如果当时知道这些,OpenAI一开始就不会选择非营利结构。
最近,OpenAI连续召开12天发布会的企划,已经让公司商业化野心藏不住了。与此同时,OpenAI CFO萨拉·弗莱尔(Sarah Friar)在最近的采访中还提到:OpenAI的产品已经达到博士级别,可以每个月收取2000美元。CFO进一步地表示,如果AI真的能像一个博士级别的助手,在任何事情上帮助我,每月收取数千美元的费用是合理的,这能更好地反映AI技术能为公司提供价值,对这个世界也会是有意义的。“OpenAI可以根据客户从他们产品中获取的价值来向客户收费。”
可以看到,Balaji的哨声虽然没有叫醒OpenAI,但好在叫醒了更多的人。扎克伯格也开始要求政府阻止OpenAI从非营利实体向营利实体过渡的计划,并称,OpenAI不应该被允许无视法律,将其作为慈善非营利机构建立起的资产据为己有,并将其用于潜在的巨大私人收益。
设想一下,取代你工作的AI输出的内容可能是你曾经辛辛苦苦完成的,它学习了之后就“堂而皇之”据为己有。对于公司而言,自己曾经合法授权的数据,在AI学习之后,成为刺伤自己的利剑。
面对强大技术带来的深远后果,总会有一批科学家陷入道德困境和内心冲突的挣扎时刻。Suchir Balaji的离世只是掀起AI伦理的一角,技术未来走向可能越来越不以人类意志为转移。那么,人类与AI究竟谁会是未来主宰者?
Refe rences:
1、X、OpenAI、Google等
2.interestingengineering: OpenAI whistleblower Suchir Balaji found dead amid copyright clash
3.Mashableindia: What OpenAI Whistleblower Suchir Balaji Exposed About AI's Dark Side Before He Was Found Dead
4.OpenAI吹哨人之死:ChatGPT的阴暗面 by:AI燎原
热门跟贴