OSI定义开放人工智能，不需要开放数据|osi|人工智能|大模型|开源软件|源代码

开源促进会（OSI）发布的第一个开源人工智能定义（OSAID），但缺乏对训练数据开放性的要求，留下了一个需要填补的空白。经过OSI两年的发展，OSAID于本周公布。OSI是一个标准机构，近三十年来一直致力于定义开源的含义，并创建许可证以帮助分发开源软件。

OSI董事会主席Carlo Piana表示，这一过程“发展良好、彻底、包容和公平”。“董事会相信，这一过程已经产生了一个符合开源定义和四项基本自由中定义的开源标准的定义，我们对这一定义如何定位OSI以促进整个行业有意义和实用的开源指导充满活力。”

四项基本自由要求，对于任何软件，每个用户都必须自由地：

“使用该系统或任何目的，无需征得许可；”

“研究该系统的工作原理，了解其结果是如何产生的；”

“出于任何目的修改系统，包括更改其输出；”

“共享系统供他人出于任何目的使用，无论是否进行修改。”

根据OSAID 1.0的定义，需要开源人工智能，以便“让每个人都受益”。人工智能开源定义要求开发人员必须提供用于训练和运行系统的完整源代码，包括“数据如何处理和过滤的完整规范，以及训练是如何完成的。”

定义指出，这包括“用于处理和过滤数据的任何代码，用于训练的代码，包括使用的参数和设置，验证和测试，支持标记器和超参数搜索代码、推理代码和模型架构等库”。OSAID下开放式人工智能系统的作者还必须充分披露参数的完整描述，包括权重和配置设置。

但是，当涉及到用于训练模型的数据时，OSAID不要求提供训练数据。相反，它只需要“关于用于训练系统的数据的足够详细的信息，以便技术人员可以构建一个基本等效的系统”，该定义指出：

“特别是，这必须包括：（1）对用于训练的所有数据的完整描述，包括（如果使用）不可共享数据，披露数据的来源、范围和特征、数据是如何获得和选择的、标签程序以及数据处理和过滤方法；（2）列出所有公开可用的训练数据以及在哪里获得；（3）列出从第三方获得的所有训练数据以及从哪里获得，包括收费。”

Mozilla人工智能战略负责人Ayah Bdeir表示，这超出了“当今许多专有或表面上开源的模型所做的”。然而，Bdeir似乎承认，不要求完整的训练数据副本代表了OSAID的妥协。她在新闻稿中表示：“这是解决如何处理人工智能训练数据的复杂性的起点，承认共享完整数据集的挑战，同时努力使开放数据集成为人工智能生态系统中更常见的一部分。”“这种开源人工智能中的人工智能训练数据的观点可能不是一个完美的地方，但坚持一种意识形态上原始的黄金标准，实际上任何模型构建者都无法满足，最终可能会适得其反。”

Lightning AI的首席技术官Luca Antiga希望OSI能更进一步，并要求训练数据在开源AI的定义中是开放的。他说：“如果我们接受模型的源代码是它训练过的数据，或者至少有很大一部分是它训练的数据，那么我们就有了一个开源人工智能，它的源代码不是开放的。这不仅仅是学术上的区别。”。“我认为，为了具有实用价值，开源的定义需要包罗万象。”

Apache 2.0许可证是开源的黄金标准，因为它规定开源软件的创建者不会起诉用户。但是，Antiga说，通过将训练数据排除在OSAID之外，它削弱了定义，以至于用户无法获得Apache 2.0许可产品的商业用户所享有的那种保证。他说：“对于开源来说，它有点太弱了，不能被视为可以在商业环境中使用的东西。”

当然，这些都是很难解决的问题，尤其是在大型语言模型（LLM）的背景下，这些模型非常庞大，难以构建，并且是在从开放网络和私人互联网网站中挑选的大量数据上进行训练的。由于这些障碍，只有少数世界上最大的科技公司成功开发和训练了LLM。

例如，Meta的Llama3模型非常受欢迎，功能强大，可以免费下载，但Meta并没有将其称为开源模型，可能是因为它是在专有数据（Facebook和Instagram对话）上训练的，Meta不会发布这些数据。尽管名为OpenAI，但它在2022年11月发布ChatGPT时引发了LLM热潮，甚至没有假装其模型是开源的。

OSI执行主任Stefano Maffulli似乎承认，将开放数据作为一项要求为开源人工智能带来了困难。“到达今天的OSAID 1.0版本是一段艰难的旅程，对OSI社区来说充满了新的挑战，”Maffulli在OSI新闻稿中说。“尽管这个过程很微妙，充满了不同的意见和未知的技术前沿，偶尔还会有激烈的交流，但结果与这个为期两年的过程开始时提出的期望是一致的。随着我们与更广泛的开源社区一起发展阅读和应用OSAID v.1.0的知识，这是继续努力与社区接触以改进定义的起点。”