OpenAI遭遇高质量训练数据难题已采集超百万小时视频训练GPT-4

PConline太平洋科技

2024-04-10 10:07 ·广东

【太平洋科技资讯】根所外媒报道，OpenAI等AI公司在获取高质量训练数据方面遇到了难题，其中OpenAI由于急需大量的训练数据，并开发了Whisper音频转录模型来应对这一挑战。为了训练其最先进的大型语言模型GPT-4，OpenAI转录了超过100万小时的YouTube视频。

目前不少AI公司在获取高质量训练数据方面遭遇了难题。根据相关报道称，OpenAI在2021年耗尽了有用的数据供应，并在耗尽其他资源后讨论了转录YouTube视频、播客和有声读物的可行性。此外，OpenAI还使用了来自GitHub的计算机代码、国际象棋走棋数据库等。尽管OpenAI知道这种做法在法律上存在问题，但公司认为这是合理使用。OpenAI在一封电子邮件中告诉The Verge，该公司为每个模型策划了“独特”的数据集，以“帮助他们了解世界”并保持其全球研究竞争力。并称公司使用“众多来源，包括公开数据和非公开数据的合作伙伴”，并且正在考虑生成自己的合成数据。

打开APP，阅读体验更佳

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴