自从 AI 出现以后,我刷视频,老被那种“ AI 配音”的科普号整出戏。发音字正腔圆,但情绪语调听起来像白开水似的,听着耳朵都起茧子。
所以我对 AI 语音这个东西,一直保持保守态度。
虽然录视频时,我经常因为语音 NG,但真的被伤过太多次。市面上哪些号称"媲美真人"的 AI 语音,就像喝了假酒的 Siri 一样,每次听都觉得差一口气,太没活人感了。
上周,我看到 MiniMax 最新升级到了最新的 2.8 语音模型,据介绍,这货已经进化到人耳难辨的程度。
MiniMax 的 AI 配音
第一次打开 MiniMax 的语音生成界面还是挺简洁的。
同时,它还分成语音合成与音乐创作两个选项。(音乐创作不是我们今天的主题,想我测评这个模块的小伙伴,可以在评论区留言告诉我)
中间是一个大文本框,只要输入文本,调节好自己喜欢的参数,就能生成音频,整体简单方便。
可以看到,MiniMax 很贴心地给了新闻播报、说书、影视配音三个最主要的应用场景。
下面是模型的选择,最新的就是 2.8 的模型,分为两个,一个是 hd,一个是turbo(一个主打情绪渲染,一个主打生成速度)。
最底下还有一个音色库,里面摆放了官方调设好的音色,老狐我虽然没有细数,但是鼠标一路滑下去,数量已经是非常客观了。
无论是御姐音、少年音、大叔音还是萝莉音,甚至是日中韩、法语、西班牙语都能选择,基本能覆盖日常使用了。
整体给我的第一印象,操作很简单,不到一分钟就能生成一段不错的语音,这效率让我流下了羡慕(嫉妒)的泪水。
(老狐我之前因为音色不满意,一段视频 NG 了几十次,拍了差不多一整天...)
当然,这样傻瓜式的操作能不能做出好语音?我们来点硬核的。
AI 也有语言天赋!
既然是测试,那就要有章法。
根据 MiniMax 自己宣传,目前是支持 40 多种语言,而且每种语言还配备不同的音色。
那我就要来先测试一下,逻辑很简单,从国内到国外,从常规到变态。
简单的来看,我先测试了个普通话,随手选了个御姐音试试效果。
没想到...
天啊!现在连 AI 配音都能做得这么逼真,这么欲的吗??
这一开头就给了我惊喜。
那事不宜迟,接下来开始测粤语,毕竟我生活在广州嘛。
粤语这玩意儿,很多 AI 都翻车。声调复杂,用词特殊,还经常夹杂英文——这可是香港人的日常操作。
我挑了钟嘉欣的名场面——"cheap man"。这段台词可是经典中的经典,情绪要到位,粤语要正宗,还要夹杂英文。
出来的结果竟然还不错。
有着地道的港式粤语味道,夹杂着英文单词的语感,完全不像AI生成的。
虽然整体上还是有点僵硬,但确实像哪个香港妹子在念台词,整体能达到以假乱真的效果,它竟然差点骗过我的耳朵??
粤语这一关,过了。
粤语测完我准备上点难度,把外语测上。
这里我选了《教父》里的两个经典名场面。
教父那种沙哑低沉、缓缓道来却字字千钧的感觉,并不容易配好,所以我特意选了一个中老年男声音色。
虽然嗓音是那种略带沙哑的中老年声线,但吐字清晰,但就是这种"不完美",反而让整个人物立体起来了,真的有点教父内味了。
在这里,我再说一个有意思的。
测完粤语和英语,我突然发现一个好玩的功能:它居然支持口音模仿。
而且里面竟然还有印度口音!连阿三的口音也能模仿吗??
我怀着半信半疑的心态,试了一下印度口音的英语。还是刚才那段教父的台词,但这次加了印度口音标签。
音频出来的那一刻——我直接笑了。
味道太对了。那种浓浓的"印度阿三"味道蹭蹭就上来了。卷舌音、独特的节奏感,简直神还原。
我甚至脑补出了一个印度大叔穿着西装、戴着墨镜、用教父的语气说话的画面。
这波,我是服气的。
AI 配音还有情感语调?
到这里,多语言能力算是测完了,整体效果确实不错,但这只是基础。
配音演员厉害的地方在哪里?不是多语言的念字,而是情绪,语调。
同一句话,同样的文字,开心、愤怒、悲伤说出来完全是三种表现,AI如果做不到这一点,就会瞬间出戏。
而这次 MiniMax 的 2.8 新 AI 语音模型,就是可以在输入的文字里面,插入各种标签。
例如说情绪标签,停顿标签,还有语气词标签,这个作用在AI语音里面可以说是质变!
各种组合,能让生成出来的语音,有更多的情绪语调感觉。
来实测一下效果。
我先是把刚才钟嘉欣的 Cheap man 台词重新生成了一遍,但这次加了"生气"和"厌恶"的情绪标签。
效果真的不一样了,加上情绪之后,那种怼人的名场面一下子就出来了。就连"cheap man"这种情绪化的词,她都说出了那种不屑、嫌弃的感觉。
就像你真的被人气到了,然后忍不住骂了一句"cheap man"——那种又气又看不起的感觉,真的非常到位。
我又试了一下教父的场景。
教父说话最大的特点是什么?不急不慢,每一句话都要停顿,每一个字都有分量。
我按着原场景,把话语做了一些停顿,让他在关键的地方停下来。
一下子,感觉就来了。
那种缓缓道来、字字珠玑的感觉,真的让人肃然起敬。如果闭上眼睛听,你真的会以为是一个老者在跟你说话。
我还自己尝试的时候,还发现了一点有意思的东西。
例如说,假如我连续加上好几个“哼唱”的预期标签上去,
它并不会机械地重复一个哼唱的音符,而是智能地连成一段轻哼,然后才开始说我给的台词。
整个配音显得角色非常可爱。
整体测试下来,作为一个科技博主,能看到,国产 AI 模型在语音生成上,对于情感细节的把控、对多语种的完美支持,确实走在了行业前列。
这一点让我由衷地感到骄傲。
但另一方面,我也开始为配音老师们捏把汗。
当一个模型能通过文字,捏造出任意声音时,那就注定阶级比较低,还只会念稿的工作岌岌可危。
不过所幸的是,技术永远是工具,现阶段,可以看出来,MiniMax 的语音模型依然提升空间,例如在情绪上,依然还未能完全模仿到位。
而且,即使AI能模拟出 99% 的完美声音,但决定声音此刻是哭是笑,依然掌握在人类手中。
热门跟贴