打开网易新闻 查看精彩图片

作者 | 月山橘‍‍

编辑 | 张洁

最近,沉寂已久的AI语音赛道,因为一款名为ChatTTS的文本转语音项目又热闹起来,据说是“开源语音TTS天花板”级别的存在。

上线GitHub一周狂揽超1万Stars(截至目前已超2万),一度登顶GitHub Trending榜首并连续霸榜。

打开网易新闻 查看精彩图片

概括来说,ChatTTS可以将文本转化为自然流畅、接近真人的语音,还能自动添加语气停顿、笑声和衔接词,支持中英文和多种音色。

真这么神乎其神?我们用最近风靡抖音小红书的“华尔街金融精英模仿秀”视频文本试了试,看看在油腻赛道,ChatTTS的表现能否一举超越原作博主“心碎小海苔”:

“今天开了一整天的会,新来的这个intern实在是太蠢了,我就说state school的不行吧。They don't even know how to talk to people. Oh god. 哎,不过说起来,你是哪个学校毕业的?哦,所以是Master的时候才来到这边吗?我高中的时候就过来了,所以可能和你平时能接触到的那些男生不太一样,我是我们公司最年轻的MD。Goldman知道吧,我很多朋友都在那边哦。Anyway,这家bar我很常来,他们老板跟我都是哥们儿来着。”(来源:抖音“心碎小海苔(华尔街版)”)

没想到,ChatTTS一开口就是老“留子”了,不仅中英文丝滑切换,还加了“啊”“呀”“吧”等语气词和笑声衔接和过渡,整体十分自然真实流畅。

这里再放一下原博主“心碎小海苔”的视频,大家觉得ChatTTS和原博主的表现谁更油?

 我们让中文AI语音天花板,PK了一下“华尔街金融老油子”
打开网易新闻 查看更多视频
我们让中文AI语音天花板,PK了一下“华尔街金融老油子”

更不要说,这要是再叠加一个克隆音色的功能,以后拍视频岂不是只需要对口型就行了?

虽迟但到,我们在本文中对ChatTTS进行了多场景测评,尝试探讨可能的应用场景,以及对内容创作者的影响。

打开网易新闻 查看精彩图片

ChatTTS多场景实测

进入ChatTTS在线体验网址(https://chattts.com/),输入文本框就有一个现成的示例,我们立马试了试。

四川美食确实以辣闻名,但也有不辣的选择。比如甜水面、赖汤圆、叶儿耙等,这些小吃口味温和,甜而不腻,也很受欢迎。

打开网易新闻 查看精彩图片

音色是随机的,点击Audio Seed右边的骰子可以切换音色,不同的Seed值对应不同的音色。

我们保持默认设置不变,点击生成,得到了以下这段语音:

可以听出,经过精调(Refrain),初始文本中加入了几处语气停顿和衔接词“然后”,我们也可以仿照这种格式手动在文本中添加[uv_break]和[laugh]等,来控制停顿和笑声的位置。

声音的自然度和真实度也很惊艳,甚至带着一种川渝人的慵懒腔调。

上文我们借“华尔街金融精英模仿秀”测试了ChatTTS中英文混说的能力,下面我们再看看它能不能hold住中英文脱口秀、Mean girl小剧场、中英文绕口令和小说配音等场面。

中文脱口秀

“我有个朋友叫辣目洋子,你知道,我们参加一个节目叫桃花坞,到那之后她就跟我说,雪琴,我社恐,还好有你在。我说没事,妹妹你放心,我社交能力还行,到时候你就跟着我。然后当天晚上我们开party,她咔擦把衣服一脱,穿个抹胸就上了,拉着郭麒麟跳舞。我当时坐在下面,像个傻子一样,都麻了。你说她没得社恐前得啥样啊?我说姐你社恐,德云社的社呀?德云社看你是得挺恐慌的。”(来源:脱口秀演员李雪琴)

别说,确实有脱口秀内味儿。除了“德云社的社呀?”不够准确清晰,整体都非常真实自然,语速、气息和节奏感也把握得很好。‍‍‍‍‍‍‍

英文脱口秀

I hate verbs in English! I dance. You dance. He dances. Why? Does he dance more than me? 645 people dance but he dances. How much is he dancing?(来源:火柴人脱口秀)

相比之下,英文脱口秀就说得有点干巴了,语气丝毫不生动、戏谑,而且没能将阿拉伯数字645转化为对应的英语(Six hundred and forty fifteen)读出来。

Mean girl 小剧场

OH MY GOD! Watch where are you going loser! Wait, is that Chanel? It's totally killer. How did you afford it? Who are you? Don't need to know more. I can tell that we're gonna be friends. Meet me out back after school take you home in my benz. You gotta know I don't take a liking to most people, but with you by my side, I think that we can run this whole school. No problems will come your way, like a lioness we'll feed on these losers like prey. What do you say?

蠢货,你没长眼睛吗?等下,你背的是小香吗?这款超难买的耶。你是怎么买到的?你是谁?不用多介绍了,我们肯定能当朋友。放学到后门找我,开我的奔驰送你回家。你得知道,我几乎讨厌这个学校的所有人,但是如果你在我身边,我想我们一定能统治整个学校,没人敢找你麻烦,我们就像猎食者捕捉这些蠢货,怎么样?

这是TikTok和抖音上很经典的一个Mean girl段子,有一位国外博主的配音更是堪称对Mean girl形象的教科书式演绎,因此被广泛用于各种对口型视频。

 我们让中文AI语音天花板,PK了一下“华尔街金融老油子”
打开网易新闻 查看更多视频
我们让中文AI语音天花板,PK了一下“华尔街金融老油子”

于是我们把这段英文文本丢给ChatTTS,看它能不能精准拿捏Mean girl说话的特色。‍‍

开头一句“Oh my God”味儿挺对,但紧接着就开始结巴和胡言乱语了,不知道是不是因为“Watch where are you going loser!”的语法有问题,给它的CPU干烧了。

打开网易新闻 查看精彩图片

中文绕口令

黑化肥发灰,灰化肥发黑。黑化肥发灰会挥发,灰化肥发挥会发黑。黑化肥挥发会发灰,灰化肥挥发会发黑。

默认音色说得还挺溜,但换成其它音色就开始舌头打结了:

英文绕口令

She sells sea shells on the seashore. The shells she sells are seashells.

这段英文绕口令的咬字很清晰,但语速较慢(不讲武德),语气还抑扬顿挫的,丧失了说绕口令的灵魂。

小说配音

宫殿门被推开,黄昏下,一个小小瘦弱的影子出现在门口。 “澹台明朗,这是我的东西,还给我!” 澹台明朗愤怒道:“谁放这个小畜生进来的!” 澹台烬不语,手中拽着一条毒蛇,朝澹台明朗走过去。 澹台明朗到底是个小孩,吓得后退了一步,呵斥周围的人:“狗奴才都死了吗?还不拦住他?” 太监们捉住澹台烬,那个毒蛇也被抢走丢开。(来源:《长月烬明》)

这次一整个大翻车。起初,我将每句都换行的文本输入,没想到它直接输出一声“哔”,生成了几次都是如此。在删除换行空格后,才能正常生成语音。但似乎ChatTTS不认识“澹”这个字,所有“澹”都被改成了乱码,而且无法识别冒号、引号等标点符号,生成的语音自然也是磕磕绊绊、含混不清。

打开网易新闻 查看精彩图片

总结一下:

优点:

1. 真实度和自然度很惊艳,很接近日常普通人的音色

2. 具有一定可控性,可以自动/手动添加语气停顿、笑声和衔接词

3. 操作简便,开源且提供预训练模型

缺点:

1. 稳定性不足,有时会出现直接报错罢工、电流音、胡乱增删文本等情况

2. 目前只能通过掷骰子盲选音色,在AI配音领域的应用会有所受限

3. 处理速度较慢且有时需要后期修正,不适用于实时语音交互场景

4. 无法准确识别冒号、引号等标点符号

5. 无法自动将阿拉伯数字转化成中文或英文读出来

6. 情绪语气可控性不足,目前仅支持添加笑声和停顿,无法添加愤怒、悲伤、惊讶等情绪(据说会在未来的版本中开源更多情感控制功能)

打开网易新闻 查看精彩图片

情感TTS时代来临

最近,基于ChatTTS以上不足,有大佬开源了升级版本的“增强版ChatTTS”,无论是在线使用还是本地部署都更简单方便,功能也更加完善,具体表现为:

1. 音质增强:在生成语音前,勾选音质增强和降噪,音频会更加清晰。

2. 文本切割:当输入文本较长时,可以勾选文本切分进行处理,每50个字符切分一次,还可以将音频片段合并成一整段音频。‍‍‍‍‍‍

3. 音色固定:可以将喜欢的音色保存在配置文件里,方便下次使用。‍‍

值得一提的是,字节最近也推出一款文本转语音项目Seed-TTS,主打的也是生成自然真实的语音,不同的是,Seed-TTS能理解上下文语境,生成更具情感表现力的语音,能模拟的情绪和语气也更丰富,可以声情并茂地给多角色有声小说配音。

不过,由于我们目前暂无法亲自体验,从放出的官方示例听下来,Seed-TTS比ChatTTS更胜一筹。

Seed-TTS Github项目地址

https://github.com/BytedanceSpeech/seed-tts-eval‍

实际上,在导航软件、智能音箱、语音播报等场景中,清晰流畅的合成语音早已屡见不鲜。但随着长短视频、影视游戏、对话式AI聊天应用等的发展,市场对于高情感表现力的合成语音的需求与日俱增。

以游戏为例,一个好的CV(Character Voice, 角色声音)对于塑造角色形象、增强玩家的游戏体验和沉浸感至关重要。然而,传统的游戏配音不仅需要遴选配音演员,还要保证前后声音录制的一致性,如遇配音演员“翻车”,还可能下架原有语音,重新录制。而合成语音则可以提供一个更高效、成本也更可控的解决方案。

除了游戏以外,对话式AI聊天应用也是合成语音技术落地的绝佳场景。

近一年多以来,AI大模型的热潮显著推动了TTS的技术升级,GPT-4o的实时情感化语音交互能力更是打开了人们的想象力,科幻电影《Her》中的情节正在变成现实。

对于普通内容创作者而言,ChatTTS、SeedTTS等TTS工具可以快速将文本转换为语音,帮助创作者节省配音的时间,提高创作效率。虽然剪映等剪辑工具,已内置“克隆音色”等类似功能,但生成的语音效果多有些生硬。

需要注意的是,由于合成语音是基于真人声音样本训练的,可能涉及到原创声音的版权问题。同时,还要防范合成声音被用于虚假信息的传播、诈骗等行为。

「头号AI玩家交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。

欢迎分享、点赞、在看

一起研究AI