Minimax AI 配音，这家伙嗓子里是不是住了个戏精？

科技狐

2026-03-08 17:34 ·广东 ·优质数码领域创作者

自从 AI 出现以后，我刷视频，老被那种“ AI 配音”的科普号整出戏。发音字正腔圆，但情绪语调听起来像白开水似的，听着耳朵都起茧子。

所以我对 AI 语音这个东西，一直保持保守态度。

虽然录视频时，我经常因为语音 NG，但真的被伤过太多次。市面上哪些号称"媲美真人"的 AI 语音，就像喝了假酒的 Siri 一样，每次听都觉得差一口气，太没活人感了。

上周，我看到 MiniMax 最新升级到了最新的 2.8 语音模型，据介绍，这货已经进化到人耳难辨的程度。

MiniMax 的 AI 配音

第一次打开 MiniMax 的语音生成界面还是挺简洁的。

同时，它还分成语音合成与音乐创作两个选项。（音乐创作不是我们今天的主题，想我测评这个模块的小伙伴，可以在评论区留言告诉我）

中间是一个大文本框，只要输入文本，调节好自己喜欢的参数，就能生成音频，整体简单方便。

可以看到，MiniMax 很贴心地给了新闻播报、说书、影视配音三个最主要的应用场景。

下面是模型的选择，最新的就是 2.8 的模型，分为两个，一个是 hd，一个是turbo（一个主打情绪渲染，一个主打生成速度）。

最底下还有一个音色库，里面摆放了官方调设好的音色，老狐我虽然没有细数，但是鼠标一路滑下去，数量已经是非常客观了。

无论是御姐音、少年音、大叔音还是萝莉音，甚至是日中韩、法语、西班牙语都能选择，基本能覆盖日常使用了。

整体给我的第一印象，操作很简单，不到一分钟就能生成一段不错的语音，这效率让我流下了羡慕（嫉妒）的泪水。

（老狐我之前因为音色不满意，一段视频 NG 了几十次，拍了差不多一整天...）

当然，这样傻瓜式的操作能不能做出好语音？我们来点硬核的。

AI 也有语言天赋！

既然是测试，那就要有章法。

根据 MiniMax 自己宣传，目前是支持 40 多种语言，而且每种语言还配备不同的音色。

那我就要来先测试一下，逻辑很简单，从国内到国外，从常规到变态。

简单的来看，我先测试了个普通话，随手选了个御姐音试试效果。

没想到...

天啊！现在连 AI 配音都能做得这么逼真，这么欲的吗？？

这一开头就给了我惊喜。

那事不宜迟，接下来开始测粤语，毕竟我生活在广州嘛。

粤语这玩意儿，很多 AI 都翻车。声调复杂，用词特殊，还经常夹杂英文——这可是香港人的日常操作。

我挑了钟嘉欣的名场面——"cheap man"。这段台词可是经典中的经典，情绪要到位，粤语要正宗，还要夹杂英文。

出来的结果竟然还不错。

有着地道的港式粤语味道，夹杂着英文单词的语感，完全不像AI生成的。

虽然整体上还是有点僵硬，但确实像哪个香港妹子在念台词，整体能达到以假乱真的效果，它竟然差点骗过我的耳朵？？

粤语这一关，过了。

粤语测完我准备上点难度，把外语测上。

这里我选了《教父》里的两个经典名场面。

教父那种沙哑低沉、缓缓道来却字字千钧的感觉，并不容易配好，所以我特意选了一个中老年男声音色。

虽然嗓音是那种略带沙哑的中老年声线，但吐字清晰，但就是这种"不完美"，反而让整个人物立体起来了，真的有点教父内味了。

在这里，我再说一个有意思的。

测完粤语和英语，我突然发现一个好玩的功能：它居然支持口音模仿。

而且里面竟然还有印度口音！连阿三的口音也能模仿吗？？

我怀着半信半疑的心态，试了一下印度口音的英语。还是刚才那段教父的台词，但这次加了印度口音标签。

音频出来的那一刻——我直接笑了。

味道太对了。那种浓浓的"印度阿三"味道蹭蹭就上来了。卷舌音、独特的节奏感，简直神还原。

我甚至脑补出了一个印度大叔穿着西装、戴着墨镜、用教父的语气说话的画面。

这波，我是服气的。

AI 配音还有情感语调？

到这里，多语言能力算是测完了，整体效果确实不错，但这只是基础。

配音演员厉害的地方在哪里？不是多语言的念字，而是情绪，语调。

同一句话，同样的文字，开心、愤怒、悲伤说出来完全是三种表现，AI如果做不到这一点，就会瞬间出戏。

而这次 MiniMax 的 2.8 新 AI 语音模型，就是可以在输入的文字里面，插入各种标签。

例如说情绪标签，停顿标签，还有语气词标签，这个作用在AI语音里面可以说是质变！

各种组合，能让生成出来的语音，有更多的情绪语调感觉。

来实测一下效果。

我先是把刚才钟嘉欣的 Cheap man 台词重新生成了一遍，但这次加了"生气"和"厌恶"的情绪标签。

效果真的不一样了，加上情绪之后，那种怼人的名场面一下子就出来了。就连"cheap man"这种情绪化的词，她都说出了那种不屑、嫌弃的感觉。

就像你真的被人气到了，然后忍不住骂了一句"cheap man"——那种又气又看不起的感觉，真的非常到位。

我又试了一下教父的场景。

教父说话最大的特点是什么？不急不慢，每一句话都要停顿，每一个字都有分量。

我按着原场景，把话语做了一些停顿，让他在关键的地方停下来。

一下子，感觉就来了。

那种缓缓道来、字字珠玑的感觉，真的让人肃然起敬。如果闭上眼睛听，你真的会以为是一个老者在跟你说话。

我还自己尝试的时候，还发现了一点有意思的东西。

例如说，假如我连续加上好几个“哼唱”的预期标签上去，

它并不会机械地重复一个哼唱的音符，而是智能地连成一段轻哼，然后才开始说我给的台词。

整个配音显得角色非常可爱。

整体测试下来，作为一个科技博主，能看到，国产 AI 模型在语音生成上，对于情感细节的把控、对多语种的完美支持，确实走在了行业前列。

这一点让我由衷地感到骄傲。

但另一方面，我也开始为配音老师们捏把汗。

当一个模型能通过文字，捏造出任意声音时，那就注定阶级比较低，还只会念稿的工作岌岌可危。

不过所幸的是，技术永远是工具，现阶段，可以看出来，MiniMax 的语音模型依然提升空间，例如在情绪上，依然还未能完全模仿到位。

而且，即使AI能模拟出 99% 的完美声音，但决定声音此刻是哭是笑，依然掌握在人类手中。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴