五大语言声音克隆横评：本地模型谁最能打？

固件更新中

2026-07-03 04:31 ·北京

周三下午，我往本地机器塞了四个音色克隆模型，英语、德语、阿拉伯语、西班牙语、普通话挨个过了一遍。测完一看表，有些模型的口音匹配直接把我听愣了，有些则慢到让人想敲回车。

先说清楚，这不是人工主观评分，没人给自然度打1到5分。这是个纯工程横评，测的是同一个本地语音管线里，不同模型跑出来的说话人相似度、词错率、生成音频长度和实时因子。参考音频全部来自Google FLEURS数据集，每条结果都附上了参考录音与合成音频的对照。

四款参测模型分别是：OmniVoice int8、Chatterbox Multilingual fp16、VoxCPM2 bf16 和 Fish Audio S2 Pro fp16。整体看，这一轮 OmniVoice int8 表现最均衡，五语通吃，没有明显翻车项。VoxCPM2 bf16 在阿拉伯语的说话人匹配上格外亮眼，那个相似度得分甩开对手一截。Fish Audio S2 Pro 固然在德语和阿拉伯语上拿到了不错的相似度，但实时因子拖了后腿——同样的句子，它生成得比别人慢一档。Chatterbox Multilingual fp16 在阿拉伯语和西班牙语上具备竞争力，也算守住了多语种名号。

几点印象深的：

第一，阿拉伯语成了优质照妖镜。VoxCPM2 对说话人特征的抓取能力在这门语言上冒尖，而其他模型要么相似度掉队，要么实时因子炸裂。如果你有阿拉伯语克隆需求，测都不用测，直接拉它进来比。

第二，说好的“多语言”不等于全语种覆盖。Chatterbox 标着 Multilingual，但在英语和德语上并不占优，倒是西语和阿语站住了，说明本地模型的语种能力分布很不均匀，别被名字忽悠。

第三，RTF慢这件事，不光影响心情。Fish Audio S2 Pro在德语上相似度挺高，可实时因子一慢，在交互式场景里直接不及格。做实时对话产品的同学，务必把RTF和生成时长一起看，别只看相似度。

整套基准的表格和音频样本都公开了，可以直接听，自己判断。说到底，声音克隆从“能响”到“好用”，中间差的就是这种落到具体语种、具体指标上的工程验证。下次再有人跟你说某某模型“支持多语种”，不妨追问一句：阿拉伯语的说话人相似度跑过没？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴