ICML 2026 | SE-Bridge-TTS：合成数据如何训出 SOTA 低资源 TTS|icml|scaling|tts|新论文|翻译

始智AI wisemodel将打造一个“All for Agent”的原生技术平台，始终坚持“中立、开放、共建、共创、合作”五项基本原则，欢迎加入共同成长。

https://wisemodel.cn/models/Logic_Intelligence.2023/SE-Bridge-TTS

逻辑智能团队关于低资源语言 TTS 的研究论文被机器学习顶级会议 ICML 2026 接收。该工作证明，即使真实语音数据稀缺，合成数据也能训练出稳定、自然、可克隆的语音模型。 SE-Bridge-TTS 是一套以合成数据为核心的低资源语言 TTS 方案：当真实语音稀缺时，它通过合成数据 scaling、自动筛选和偏好对齐，训练出稳定、自然、可克隆的小语种语音，可用于博客配音、视频翻译配音、跨语言内容本地化、数字人播报、语音助手和少数语言保护。

逻辑智能官网，体验免费博客配音：https://luoji.cn/

开源项目 Video Translator：面向 AI 编程助手和 Agent 工作流，支持通过 Skill 方式快速接入，方便开发者在现有工具链中一键安装和使用，也可参考其实现扩展到更多国内外 AI 编程工具。项目地址：https://github.com/InsiderX-Pro/video-translator

项目

信息

论文标题

Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models

项目名称

SE-Bridge-TTS

会议

ICML 2026

论文链接

https://arxiv.org/abs/2605.27383

项目主页

https://insiderx-pro.github.io/SE-Bridge-TTS/

官方仓库

https://github.com/InsiderX-Pro/SE-Bridge-TTS

模型权重

https://wisemodel.cn/models/Logic_Intelligence.2023/SE-Bridge-TTS

项目体验官网

https://luoji.cn/

摘要

这篇文章的主线不是“再做一个更大的多语言模型”，而是一个更现实的问题：当真实录音不够时，合成数据能不能成为低资源 TTS 的核心训练资产？SE-Bridge-TTS 的答案是：可以，但前提是不能无脑堆料，必须同时管理合成数据带来的稳定性收益和表现力损失。

合成数据的第一重价值，是补足发音覆盖。它能快速构造文本-语音配对，让模型在泰语、老挝语这类真实语音稀缺的语言上更稳定地读对文本、减少错读和重复。

合成数据的第二重问题，是分布变窄。过量、平坦的合成语音会让模型输出越来越“规整”，却也更单调，逐渐损失自然韵律、说话节奏和说话人相似度。论文把这种现象称为 Synthetic Erosion。

因此，SE-Bridge-TTS 的核心不是简单扩大合成数据规模，而是回答“合成数据该如何被使用”：什么时候合成数据能增强稳定性，什么时候会侵蚀表现力，以及如何通过 DGSA 和 TDSC 把合成数据变成可控、可迭代的训练流程。

语音大模型（Spoken Language Models, SLMs）降低了对 G2P、词典和发音规则的依赖，但它并没有消除低资源语言最根本的瓶颈：高质量真实语音太少。对于小语种 TTS，模型结构只是底座，真正决定上限的往往是数据如何组织、筛选和对齐。

合成数据因此成为低资源语音模型绕不开的核心资产。它既能以低成本补足发音覆盖，也会因为低熵、低变化的分布把模型带向“读得更准但说得更平”的方向。SE-Bridge-TTS 正是围绕这一矛盾展开。

论文把合成数据带来的结构性矛盾定义为 Stability-Expressivity Gap：合成数据越多，稳定性通常越好，但表现力可能被逐步侵蚀。围绕这条主线，SE-Bridge-TTS 提出 DGSA 与 TDSC：一个用于“有少量真实语音锚点”的高合成比例训练，一个用于“几乎全靠合成数据”的自我改进训练。

从泰语 synthetic scaling，到老挝语纯合成训练，再到 FLEURS Lao/Thai 多语言提示评测，整篇工作的证据链都在说明同一件事：合成数据不是低资源 TTS 的临时替代品，而是一种需要被设计、校准和对齐的训练引擎。

1 为什么低资源 TTS 必须把合成数据放到中心

近一年，多语言 TTS 正在成为语音生成领域的主流方向。新的系统不断出现，目标也越来越统一：支持更多语言、更多说话人、更强跨语言提示合成，以及 0-shot voice cloning。但对低资源语言来说，“支持更多语言”仍然不能自动解决训练数据不足的问题。

泰语、老挝语这类语言的难点不只是“模型会不会发声”，而是能否稳定读对、自然表达，并在跨语言提示下保持目标说话人音色。真实标注语音少、采集成本高、质量参差不齐，使得合成数据从可选补充变成了低资源 TTS 的关键入口。

SE-Bridge-TTS 没有从头训练一个更大的多语言基础模型，而是基于 CosyVoice2，从数据层面重新提问：真实语音稀缺时，合成数据能带来什么？它什么时候开始伤害表现力？当“读得准”和“说得自然”出现冲突时，如何让合成数据继续服务于模型能力，而不是拖垮语音质量？

2 合成数据的两面性：先提升稳定性，再侵蚀表现力

论文最重要的实验，是围绕“合成数据到底该加多少”展开的 scaling study。研究团队固定 300 小时真实泰语语音，并将合成语音从 10 小时逐步增加到 1,500 小时，对应合成比例 α 从 3% 到 100%，观察稳定性与表现力如何随合成比例变化。

图1：合成数据比例变化下的稳定性与表现力指标曲线

图2：泰语合成数据 scaling 结果

结果呈现出清晰的两阶段趋势：当 α ≤ 50% 时，合成数据像“补课数据”一样发挥作用，WER 从 75.0% 降到 47.0%，NMOS 从 3.82 提升到 4.51，SMOS 从 4.31 提升到 4.63，模型既更稳定也更自然；当 α > 50% 后，合成数据继续降低 WER，却开始压缩表现力。α = 80% 时 WER 进一步降到 38.9%，但 NMOS 降至 3.61、SMOS 降至 3.54、重复率升至 6.51%；到 100% 纯合成训练时，WER 达到 36.2%，但 NMOS 只有 3.08，重复率升至 9.83%。

这就是论文命名的 Synthetic Erosion：合成数据先帮助模型学会“读对”，随后又因为低熵、平坦的语音分布，逐渐侵蚀模型从预训练骨干中继承的韵律和表达能力。因此，低资源 TTS 的关键不再是“合成数据够不够多”，而是“合成数据是否被控制在合适的训练闭环里”。

图3：稳定性-表现力权衡空间

3 让合成数据“可控”：DGSA 恢复高合成比例下的表现力

DGSA（Disentanglement-Guided Self-Alignment）解决的是第一类合成数据问题：目标语言仍有一定真实语音，但训练中合成比例很高，模型开始变稳却变平。它利用 Flow-Matching SLM 中“韵律”和“音色”的结构解耦：Text-Speech LM 更负责内容与韵律相关的离散 token，Flow-Matching Transformer 则通过参考语音提取音色 embedding，负责保持说话人身份。

图4：DGSA 方法结构图

在这个框架下，真实语音不是简单参与 SFT，而是被用来校准合成数据带来的偏差。DGSA 对同一段文本和同一参考说话人生成两类互补输出：打开 style token，得到更有表现力但更容易出错的 y_expr；关闭 style token，得到更稳定但更平坦的 y_stab。真实语音 y_real 同时具备稳定性和表现力，因此成为偏好对齐中的正样本。

这样，DGSA 把“合成数据教会模型读对”和“真实语音帮助模型说得自然”连接起来，不需要额外人工标注就能构造偏好对。双目标 DPO 与动态权重调度则负责控制训练节奏：α ≤ 50% 时主要维持稳定性；当 α 超过临界点后，表现力目标逐步介入，修正合成数据造成的平坦化。

图6：DGSA 消融结果（α=80%）

在 α = 80% 的高合成比例设置下，这种“合成数据 + 真实语音偏好锚点”的效果很直接：标准 DPO 虽然提升表现力，但 WER 恶化到 45.2%；DGSA 则保持 SFT baseline 的 38.9% WER，同时将重复率从 6.51% 降到 2.82%，NMOS 从 3.61 提升到 4.42，SMOS 从 3.54 提升到 4.53。

4 让合成数据“自我进化”：TDSC 面向几乎无真实语音的老挝语

TDSC（Temperature-Driven Self-Critique）解决的是第二类、也更困难的合成数据问题：老挝语这类极低资源语言几乎没有高质量真实语音锚点，不能稳定依赖 y_real 构造偏好正样本。此时，合成数据不仅是补充数据，几乎就是训练闭环本身。

图7：TDSC 方法结构图

TDSC 的核心，是让模型从自己生成的合成语音里筛出更好的训练信号。它对每个输入文本使用低、中、高三个温度区间生成候选：低温度更稳但更平，中温度更均衡，高温度更有探索性但错误风险更高。随后，Judge 模块基于 WER、长度和重复率过滤候选，通过的样本进入 accepted set，错误更高但仍满足基础约束的样本进入 rejected set。

图9：TDSC 五轮迭代中的 WER、韵律熵和过滤通过率

也就是说，TDSC 不是把合成数据一次性灌进模型，而是把“生成—过滤—再训练—再偏好对齐”做成循环：先用 accepted samples 做 SFT，让模型稳定生成；再用 accepted/rejected pairs 做 DPO，让模型学会区分好坏候选，抑制幻觉、重复和错误发音。随着迭代推进，系统逐步扩大高温采样上限，让模型先建立稳定性，再恢复韵律探索空间。

图11：TDSC 消融结果

老挝语实验中，TDSC 从纯合成 SFT baseline 出发，将 WER 从 38.5% 降到 29.8%，重复率从 7.62% 降到 4.15%，NMOS 从 3.12 提升到 3.94。这说明纯合成数据并不只能带来“平稳但单调”的模型；只要形成自我批判和偏好学习闭环，合成数据也可以逐步提升生成策略本身。

5 实验结果：合成数据路线是否真的有效

5.1 标准 TTS：合成数据 + 对齐超过多类开源与商业系统

图12：泰语与老挝语低资源TTS 性能对比

标准 TTS 任务验证的是：经过合成数据 scaling 和偏好对齐后，模型是否真的能从“读得准”走向“说得好”。结果显示，DGSA 在泰语上取得 4.51 NMOS，高于 ElevenLabs-v3、Gemini、Azure 和多个开源系统；TDSC 在老挝语上取得 29.8% WER 和 4.53 NMOS，优于 Gemini Flash、Gemini Pro、Azure 和 MMS-TTS。

5.2 0-shot voice cloning：合成数据训练下的音色保持

图13：0-shot voice cloning 系统对比

0-shot voice cloning 任务进一步验证：合成数据路线不只改善发音，也能保留说话人身份。泰语 DGSA 的 WER 为 38.9%，SIM 为 0.84，均优于 ElevenLabs-v3 的 42.3% WER 和 0.78 SIM。老挝语更特殊：对比系统不支持老挝语 0-shot 克隆，而 TDSC 在纯合成训练条件下实现了可用的说话人克隆能力。

5.3 FLEURS Lao/Thai：跨语言提示下的合成数据方案评测

为了验证这种合成数据路线在更开放的多语言提示场景下是否依然有效，官方仓库新增了一个可复现的 FLEURS Lao/Thai benchmark，用于比较 SE-Bridge-TTS 与 Higgs Audio v3、OmniVoice 和 X-Voice Stage1。评测时间为 2026-06-11，协议覆盖 255 组 Lao/Thai paired target sentences，并使用 Lao、Thai、Chinese、English 作为 reference prompt language。

最紧凑的主结果，是 Chinese/English prompt → Lao/Thai target 的跨语言提示合成设置。模型需要根据同样的 target_text、prompt_audio、prompt_text、target_language_id 和 prompt_language_id 生成语音。

实验数据表 6：FLEURS Lao/Thai benchmark 主结果

模型

支持样本

Accuracy ↑

Speaker similarity ↑

Higgs Audio v3

1020/1020

78.2%

OmniVoice

1020/1020

75.9%

SE-Bridge-TTS

1020/1020

83.4%

X-Voice Stage1

510/1020

53.7%

从结果看，合成数据方案并没有只在论文原始设定里有效。SE-Bridge-TTS 在跨语言 prompt 到 Lao/Thai target 的总体 accuracy 上达到 83.4%，高于 Higgs Audio v3 的 78.2%、OmniVoice 的 75.9% 和 X-Voice Stage1 的 53.7%。在 speaker similarity 上，SE-Bridge-TTS 为 0.593，仅低于 OmniVoice 的 0.645，明显高于 Higgs Audio v3 的 0.520 和 X-Voice Stage1 的 0.361。

覆盖率也说明了这条路线的实际价值：X-Voice Stage1 在该评测中的 Lao 方向不支持，因此覆盖率为 510/1020；SE-Bridge-TTS 则完整覆盖 1020/1020。换句话说，经过设计的合成数据训练流程，可以让低资源语言从“勉强支持”走向“稳定可测、可复现”。

6 为什么这套“合成数据 recipe”值得复用

SE-Bridge-TTS 的价值不只是“某个指标更高”，而是它提供了一套围绕合成数据的低资源 TTS recipe。第一，它把瓶颈放在数据分布，而不是单纯模型规模：低资源小语种最难的不是模型完全不会生成语音，而是有限真实数据与大量合成数据之间存在分布冲突。

第二，它没有把合成数据当成真实语音的简单替代品，而是把合成数据作为可调节变量。通过 synthetic scaling，先找到稳定性与表现力的拐点；再通过 DGSA 或 TDSC，在不同真实语音条件下修正合成数据的副作用。

第三，它基于开源底座完成增强。项目公开的 Thai / Lao 权重是 CosyVoice2-compatible checkpoints，推理说明也直接围绕 CosyVoice2 展开。这意味着这套合成数据 recipe 不只是一个封闭模型结果，而是更容易迁移、复现和工程化的训练方案。

如果一个语言缺少大规模高质量录音，但可以获得基础文本、少量真实语音和可用 ASR，那么类似流程就有迁移空间：使用开源 TTS/SLM 底座作为初始化，用合成数据补足发音覆盖；监控合成比例带来的稳定性和表现力变化；在有真实参考时使用 DGSA 做偏好对齐；在真实语音不足时使用 TDSC 做多温度自批判和迭代筛选。

7 边界条件与结语：合成数据不是越多越好，而是越可控越有价值

这项工作也给出了合成数据路线的边界。TDSC 依赖目标语言至少存在可用的 ASR 作为过滤器；实验主要覆盖泰语、老挝语两种东南亚声调语言，方法能否直接推广到形态更复杂或音系差异更大的语言，还需要更多跨语系验证。

但整体来看，SE-Bridge-TTS 指向了一条现实可行的低资源语音路线：先用合成数据建立发音覆盖，再用结构化偏好学习恢复自然度和身份保持。对于博客配音、视频翻译配音、跨语言内容生产、数字人、本地化语音助手、教育播报和少数语言保护等场景，它提供的是一套可执行的合成数据训练 recipe，而不是一个只能观摩的模型展示。

一句话概括：合成数据不是越多越好，而是越可控越有价值。它能补足低资源语言的发音覆盖，也会压缩语音表现力；DGSA 和 TDSC 的价值，就是把合成数据从“堆料”变成“对齐”，让低资源语言模型重新学会自然地说话。

----- END -----

wisemodel相关：

系列模型：