最具创新力的公司：Facebook如何利用AI来改善语音合成

读芯术

2020-12-17 16:03

全文共1625字，预计学习时长5分钟

图源：Google

Facebook已经一次又一次证明自己是近年来最具创新力的公司之一，他们的团队把一个相对简单的产品变成了拥有超过24.5亿活跃用户的世界知名品牌。

最近，社交媒体团队宣布他们已经改进了文字转语音（text-to-speech，TTS）技术。对于那些使用人工智能来经营企业、创造新产品的人来说，这个消息有着重大意义。

我们先来看看文字转语音技术的几种实际应用，接着说说Facebook的最新消息对其进行的革新，以及这对技术社区来说意味着什么。

语音合成技术应用案例

从本质上讲，文字转语音是一种辅助功能，可以改善世界各地人们的生活。在AI软件出现激增之前，文字转语音技术被称为语音连接。

语音连接需要人们手动加载来自同一讲话者的语音片段。当有人在程序中输入一个信息时，这些语音片段就被放在一起形成话语。如果你曾经使用过任意一款这类程序，你就会知道在文本复杂度高的情况下，生成的语音听起来是有多混乱、多不自然。

文字转语音技术为企业主等人打开了许多新的大门。最受欢迎的应用是用作一个简单的阅读助手。想象一下，在网上找到一篇文章，点击按钮，它就可以在你处理其他任务的同时为你讲述文章内容。这将使得面向消费者的市场推广空前扩大，消费者参与的可能性大大提高。

这类语音技术也适合用于教育。订阅式学习管理系统（LMS）广泛应用于所有行业，据估计，LMS产业价值将在2023年前达到224亿美元。语音软件让LMS开发人员和网站所有者向视障人士开放网站，并为用户提供一种新的方式来体验他们的服务。

Facebook在文字转语音技术上的进步

Facebook宣布，他们开发了一种新型文字转语音AI软件，将在多个行业掀起波澜。新的系统使用数据收集软件，可将文本快速有效地转换成各种风格和语言的语音。

目前，该程序支持英语、法语、德语、意大利语和西班牙语，其包括快速、正式、柔和在内的独特风格将允许用户自定义语音转述的方式，这为本已实用的功能增加了更多的便利性。值得一提的是，该程序还可以创建和使用各种口音。

这个新系统最显著的特点之一是转换速度快。以前，系统需要数小时的数据才能形成几秒钟的语音。新系统训练过程非常严格，一个简单的错误可能造成灾难性的后果。

有了这款新软件，Facebook可以在极短的500毫秒内生成1秒的文本，使得该系统成为迄今为止效率最高的文字转语音软件。值得注意的是，由于这种进步，系统训练时间大大缩短了。

Facebook的核心系统使用四种不同的元素来使来自文本的语音发挥作用。每个系统都是分层的，并与其他部分相连，从而创建一个网络，以其传送、组织文本的方式将从根本上永远塑造文字转语音技术。

图源：Google

展望未来

当这个软件能够被广泛使用时，它无疑会有很多令人兴奋的进步。Facebook宣布他们计划增加更多的语言和口音，然而这仅仅是冰山一角。随着越来越多人使用这个程序，Facebook能够逐渐对其改进升级。机器学习的重点在于数据，软件的用户越多，将来用于测试的数据就越多。

可以预见，这款软件将会非常适合手机用户。Facebook不断创新，为手机用户创造更好的体验。这很有可能是因为96%的Facebook用户都在移动设备上使用该平台。

随着Facebook内部收集到更多数据，我们期待听到更多新消息。

留言点赞关注

我们一起分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴