英伟达加入 Meta 和谷歌的语音AI竞赛|ai|翻译|英伟达|语音识别

在 Nvidia 今天的语音人工智能峰会上，该公司宣布了其新的语音人工智能(AI) 生态系统，该生态系统是通过与Mozilla Common Voice合作开发的。该生态系统专注于开发众包多语言语音语料库和开源预训练模型。Nvidia 和 Mozilla Common Voice 旨在加速自动语音识别模型的发展，该模型普遍适用于全球每种语言的使用者。

Nvidia 发现标准语音助手，如 Amazon Alexa 和 Google Home，支持不到 1% 的世界口语。为了解决这个问题，该公司旨在提高语音 AI中的语言包容性，并扩大全球和资源匮乏语言的语音数据的可用性。

英伟达正在加入 Meta 和谷歌已经在进行的一场竞赛：最近，两家公司都发布了语音 AI 模型，以帮助说不同语言的人之间进行交流。Google 的语音到语音 AI 翻译模型 Translation Hub 可以将大量文档翻译成多种不同的语言。谷歌还刚刚宣布，它正在构建一个通用语音翻译器，经过 400 多种语言的培训，并声称它是“当今语音模型中最大的语言模型覆盖率”。

同时，Meta AI 的通用语音翻译器(UST) 项目有助于创建 AI 系统，实现跨所有语言的实时语音到语音翻译，即使是那些口语但不常用的语言。

面向全球语言用户的生态系统

根据 Nvidia 的说法，语音 AI 的语言包容性具有全面的数据健康益处，例如帮助 AI 模型了解说话者的多样性和噪声谱。新的语音 AI 生态系统可帮助开发人员构建、维护和改进语音 AI 模型和数据集，以实现语言包容性、可用性和体验。用户可以在 Mozilla Common Voice 数据集上训练他们的模型，然后将这些预训练模型作为高质量的自动语音识别架构提供。然后，全球其他组织和个人可以调整和使用这些架构来构建他们的语音 AI 应用程序。

“人口多样性是捕捉语言多样性的关键，”Nvidia 产品经理 Caroline de Brito Gottlieb 说。“有几个重要因素会影响语音变化，例如服务不足的方言、社会方言、口音。通过这种合作伙伴关系，我们的目标是创建一个数据集生态系统，帮助社区为任何语言或上下文构建语音数据集和模型。”

Mozilla Common Voice 平台目前支持 100 种语言，拥有来自全球 500,000 名贡献者的 24,000 小时语音数据。最新版本的Common Voice 数据集还包含六种新语言——Tigre、Meadow Mari、Bengali、Toki Pona 和 Cantonese，以及来自女性演讲者的更多语音数据。

通过 Mozilla Common Voice 平台，用户可以通过将句子录制为短语音片段来捐赠他们的音频数据集，Mozilla 会在提交时对其进行验证以确保数据集质量。