周三下午,我往本地机器塞了四个音色克隆模型,英语、德语、阿拉伯语、西班牙语、普通话挨个过了一遍。测完一看表,有些模型的口音匹配直接把我听愣了,有些则慢到让人想敲回车。
先说清楚,这不是人工主观评分,没人给自然度打1到5分。这是个纯工程横评,测的是同一个本地语音管线里,不同模型跑出来的说话人相似度、词错率、生成音频长度和实时因子。参考音频全部来自Google FLEURS数据集,每条结果都附上了参考录音与合成音频的对照。
四款参测模型分别是:OmniVoice int8、Chatterbox Multilingual fp16、VoxCPM2 bf16 和 Fish Audio S2 Pro fp16。整体看,这一轮 OmniVoice int8 表现最均衡,五语通吃,没有明显翻车项。VoxCPM2 bf16 在阿拉伯语的说话人匹配上格外亮眼,那个相似度得分甩开对手一截。Fish Audio S2 Pro 固然在德语和阿拉伯语上拿到了不错的相似度,但实时因子拖了后腿——同样的句子,它生成得比别人慢一档。Chatterbox Multilingual fp16 在阿拉伯语和西班牙语上具备竞争力,也算守住了多语种名号。
几点印象深的:
第一,阿拉伯语成了优质照妖镜。VoxCPM2 对说话人特征的抓取能力在这门语言上冒尖,而其他模型要么相似度掉队,要么实时因子炸裂。如果你有阿拉伯语克隆需求,测都不用测,直接拉它进来比。
第二,说好的“多语言”不等于全语种覆盖。Chatterbox 标着 Multilingual,但在英语和德语上并不占优,倒是西语和阿语站住了,说明本地模型的语种能力分布很不均匀,别被名字忽悠。
第三,RTF慢这件事,不光影响心情。Fish Audio S2 Pro在德语上相似度挺高,可实时因子一慢,在交互式场景里直接不及格。做实时对话产品的同学,务必把RTF和生成时长一起看,别只看相似度。
整套基准的表格和音频样本都公开了,可以直接听,自己判断。说到底,声音克隆从“能响”到“好用”,中间差的就是这种落到具体语种、具体指标上的工程验证。下次再有人跟你说某某模型“支持多语种”,不妨追问一句:阿拉伯语的说话人相似度跑过没?
热门跟贴