遭OpenAI禁用?字节跳动回应使用情况。

OpenAI 封禁字节跳动账户

当地时间12月15日,外媒The Verge曝出字节跳动正在秘密研发一个被称为“种子计划”(Project Seed)的AI大模型项目。据称该项目在训练和评估模型等多个研发阶段调用了OpenAI的应用程序接口(API),并使用ChatGPT输出的数据进行模型训练。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在API调用和对输出内容的使用方面,OpenAI的使用协议明确规定了:禁止使用输出开发竞争模型。

在2023年11月14日更新的使用条款中还规定了:

不得尝试或协助任何人进行逆向工程、反编译或发现OpenAI服务的源代码或底层组件,包括我们的模型、算法或系统(除非适用法律禁止此限制)。

不得自动或以编程方式提取数据或输出(定义如下)。

不得表示输出是人类生成的,但事实并非如此。

OpenAI的使用条款中对于违规用户的处理办法是:在提前通知的情况下,随时终止服务。

打开网易新闻 查看精彩图片

OpenAI服务条款中禁止的事项

而目前,隶属于字节跳动公司名下的部分GPT使用权限均已被OpenAI封禁。

报道称,在 AI 领域,字节跳动的这一做法通常被视为一种“失礼”行为,也直接违反了 OpenAI 的服务条款。OpenAI 的服务条款规定,该公司所输出的模型不能被用于“开发任何与我们的产品和服务竞争的 AI 模型”。字节跳动通过微软购买了 OpenAI 的访问权限,但是微软也制定了与 OpenAI 同样的政策。

外媒获得的字节跳动内部文件证实,字节跳动在几乎每个开发阶段都依赖 OpenAI 的应用程序接口(API)来开发其代号为“种子计划”(Project Seed)的基础大语言模型,包括训练和评估模型。

参与“种子计划”的员工都深知这一行为的不良影响。根据字节跳动员工在内部通讯平台飞书海外版 Lark 的聊天记录,他们讨论了如何通过“数据脱敏”来粉饰证据。外媒称,字节跳动员工大量使用 OpenAI 的技术,以至于“种子计划”的员工经常达到 OpenAI API 的最大访问上限。

内部文件显示,字节跳动更多的是在“种子计划”的早期阶段使用 OpenAI 的技术。几个月前,该公司命令该团队在“模型开发的任何阶段”停止使用 GPT 生成的文本。大约在这个时候,该公司获得了批准发布了自家 AI 大模型“豆包”,从而让“种子计划”上线。但是,字节跳动继续以违反 OpenAI 和微软服务条款的方式使用 API,包括评估豆包背后模型的性能。一位对字节跳动内部情况有第一手了解的人指出,“他们说他们想确保一切都是合法的,但他们实际上只是不想被抓住把柄”。

三方发布回应

随后,OpenAI 发言人 Niko Felix 证实已暂时封禁了字节跳动的账户,并将进一步展开调查。Niko Felix 表示," 所有 API 客户必须遵守我们的使用政策,以确保我们的技术被用于好的一面。虽然字节跳动很少使用我们的 API,但我们在进一步调查期间已暂停了他们的帐户。如果我们发现他们的使用不符合公司政策,我们将要求他们做出必要的改变或终止他们的账户 "。

微软发言人 Frank Shaw 也在一份声明中表示,"Azure OpenAI 服务等 AI 解决方案属于我们有限访问框架的一部分,这意味着所有客户都必须申请并获得微软的批准才能访问。我们还制定了标准、并提供资源,帮助客户负责任地使用这些技术,并遵守我们的服务条款。我们还制定了发现滥用行为的流程,并在企业违反我们的行为准则时停止他们的访问 "。

字节跳动发言人 Jodi Seth 则回应称,"GPT 生成的数据在‘种子计划’的早期开发中用于注释模型,并且在今年年中左右已从字节跳动的训练数据中删除。字节跳动得到了微软的授权,可以使用 GPT API。我们在非中国市场利用 GPT 支持我们的产品;但在中国市场,则是使用我们自研的模型来支持豆包 "。

12月17日,针对外媒曝字节跳动使用OpenAI服务账号被封一事,字节跳动官方做出使用情况及澄清回应。字节跳动相关负责人回应称,公司在使用OpenAI相关服务时,强调要遵守其使用条款。目前正与OpenAI联系沟通,以澄清外部报道可能引发的误解。

字节跳动表示,今年4月,字节大模型团队已经提出了明确的内部要求,不得将GPT模型生成的数据添加到字节大模型的训练数据集,并培训工程师团队在使用GPT时遵守服务条款。9月,公司内部又进行了一轮检查,采取措施进一步保证对GPT的API 调用符合规范要求。

字节跳动在回应中表示,未来几天里,公司将会再次全面检查,以确保严格遵守相关服务的使用条款。

以下为字节跳动澄清全文:

字节跳动关于OpenAI服务使用情况的澄清

近日,有外媒报道称,字节跳动在使用OpenAI技术开发自己的大语言模型,违反了OpenAI服务条款。对此,字节跳动相关负责人回应称,公司在使用OpenAI相关服务时,强调要遵守其使用条款。我们也正与OpenAI联系沟通,以澄清外部报道可能引发的误解。

以下是公司使用OpenAI服务相关情况的介绍:

1、今年年初,当技术团队刚开始进行大模型的初期探索时,有部分工程师将GPT的API服务应用于较小模型的实验性项目研究中。该模型仅为测试,没有计划上线,也从未对外使用。在4月公司引入GPT API 调用规范检查后,这种做法已经停止。

2、早在今年4月,字节大模型团队已经提出了明确的内部要求,不得将GPT模型生成的数据添加到字节大模型的训练数据集,并培训工程师团队在使用GPT时遵守服务条款。

3、9月,公司内部又进行了一轮检查,采取措施进一步保证对GPT的API 调用符合规范要求。例如分批次抽样检测模型输出结果与GPT的相似度,避免数据标注人员私自使用GPT。

4、未来几天里,我们会再次全面检查,以确保严格遵守相关服务的使用条款。

字节跳动的大模型之路

字节跳动在人工智能领域布局已久。2016年,字节就成立了人工智能实验室AI Lab,聚焦于自然语言处理、机器学习、数据挖掘等方面的研究。不过,国内“大模型之战”掀起后,字节一直没有公布任何底层大模型的进展。

2023年,字节跳动在AI领域的投入虽然低调,但却不遗余力。一方面,字节跳动积极开展大模型B端业务。6月28日,字节跳动旗下火山引擎发布大模型服务平台“火山方舟”,面向企业提供模型精调、评测、推理等全方位的平台服务(MaaS,即Model-as-a-Service),目前集成了百川智能、出门问问、复旦大学MOSS、IDEA研究院、澜舟科技、MiniMax、智谱AI等多家AI科技公司及科研团队的大模型。为了赋能更多的AI公司,9月19日,火山引擎数智平台VeDI还推出“AI助手”,通过接入人工智能大模型,帮助企业提升数据处理和查询分析的效率。

另一方面,字节跳动低调推进大模型C端业务,自研通用大模型“云雀”。云雀大模型的定位是一个自然语言内容生成和内容理解的AI大模型,该模型基于字节机器学习平台开发,它可以通过自然语言处理技术与用户进行对话,回答用户的问题,提供相关的信息和建议。

8月17日,字节跳动公测基于云雀大模型开发的AI对话产品“豆包”,有网页端、iOS和安卓客户端,提供聊天机器人、写作助手以及英语学习助手等功能,可以回答各种问题并进行对话,帮助人们获取信息。

除了“豆包”,字节跳动研究团队还公布过一个多模态大模型的学术研究项目BuboGPT,该模型能够处理包括文本、图像和音频在内的多模态输入,即不仅可以理解图像、音频和文本,并将这些理解与文本输入和输出相结合,还可以定位和描述图像中的物体以及声音的来源。

11月27日,即字节跳动确认收缩游戏业务当天,据媒体报道,字节跳动成立了一个新的AI部门Flow,技术负责人为字节跳动技术副总裁洪定坤,业务带头人为字节跳动大模型团队的负责人朱文佳。Flow 的相关招聘信息显示,Flow 是字节跳动旗下 AI 创新业务团队,目前已在国内和海外分别上线了豆包和 Cici 两款产品,还有多个 AI 相关创新产品在孵化中。业内普遍认为,这也许是字节跳动在收缩游戏业务的同时,加码AI应用开发的信号。

责任编辑:张薇