你有没有遇到过这种情况?让AI读一段文案,结果它要么像客服机器人一样毫无感情,要么在不该停顿的地方断句,把"今天,我们很高兴宣布"读成追悼会开场白。谷歌今天发布的Gemini 3.1 Flash TTS,看起来是想终结这种尴尬。

01 这次升级到底改了什么

打开网易新闻 查看精彩图片

DeepMind团队今天放出的新模型,核心卖点就一个字:控。不是控制狂那种控,是导演喊"卡"那种控。

用户现在可以通过纯文本指令,直接指挥AI的声音风格、语速和表达方式。谷歌在X上发的演示视频显示,系统内置了"热情""惊喜""信息型"等情绪标签,还能选英式RP、美式山谷腔、跨大西洋口音等方言变体。

更细的是"导演级控制"——你可以指定播客对话、有声书旁白、语言教师、语音助手、健康向导、新闻主播、客服代表等场景模板。每个模板自带环境设定和对话指令,调好后能直接导出成API代码。

谷歌在博客里说:「这个世界构建的上下文帮助角色保持"在角色中",并在多轮对话中自然地相互反应。」翻译成人话:以前AI配音是单口相声,现在能搭戏了。

02 技术参数里的门道

覆盖语言超过70种,包括日语、印地语、德语。所有输出带SynthID水印,方便溯源。

在Artificial Analysis TTS排行榜上,这个模型拿了1211分,排名第二。这个榜单靠数千次真人盲测打分,不是实验室自嗨。

接入方式分三层:开发者走Gemini API和Google AI Studio,企业用户用Vertex AI,普通用户去Google Vids玩Demo。

03 为什么现在做这件事

语音合成赛道早就卷成红海。ElevenLabs估值破30亿美元,OpenAI的Voice Mode跟着GPT-4o一起发,亚马逊、微软各自有Polly和Azure Speech。谷歌这时候推Flash TTS,不是补作业,是换打法。

之前的竞争焦点在"像不像人"——音质、韵律、情感逼真度。谷歌这次把战场挪到了"好不好管"。

想想看:做游戏配音,需要同一个角色在战斗时嘶吼、在剧情里低语;做多语言播客,需要主持人用不同口音聊同一个话题;做客服培训,需要模拟难缠客户的各种情绪状态。这些场景要的不是一个"完美的声音",是一个"听话的声音"。

文本指令控制这个设计,本质上是在降低音频生产的协作成本。以前调语音参数要进专业工具、拉时间轴、调频谱,现在写提示词就行。这对内容团队来说是 workflow 层面的改变。

04 口音选项的商业算计

英语选项里有个细节很有意思:除了常规的英美澳口音,谷歌单列了"Valley"(硅谷/加州山谷腔)、"Southern"(美国南方腔)、"Brixton"(伦敦布里克斯顿区,传统工人阶级社区)、"RP"(Received Pronunciation,英式标准音,偏上流)、"Transatlantic"(跨大西洋腔,好莱坞黄金时代播音风格)。

这不是技术炫耀,是精准的用户画像。

Valley腔对应科技播客和创业叙事,Southern腔打开美国中南部市场,Brixton和RP区分阶级语境,Transatlantic直接瞄准复古内容创作者和高端广告。每个选项背后都是一类内容需求和一群付费意愿明确的用户。

更隐蔽的野心在多语言支持。70+语言里,日语、印地语、德语被单独点名——这三个分别是游戏、外包客服、工业自动化的高价值市场。

05 水印和排名的弦外之音

SynthID水印是个容易被忽略的信号。谷歌在主动解决一个行业痛点:AI生成内容的溯源和信任。这对企业客户尤其重要——用AI配音做品牌内容,万一被质疑是深度伪造,有水印就能自证清白。

Artificial Analysis榜单第二的排名也值得琢磨。第一是ElevenLabs的某个版本,但谷歌选择在这个节点公布成绩,是在向开发者喊话:我们的质量已经能打,现在还多给你们一层控制力。

这种"够用+好管"的组合,比单纯追求SOTA(当前最优)更贴合实际生产场景。

06 谁该关注这个更新

三类人最该试用:

做本地化内容的产品经理。同一套文案,用不同口音和情绪标签快速生成多版本A/B测试,成本从请配音演员降到调提示词。

开发对话式AI的工程师。角色一致性是沉浸感的关键,现在可以通过API参数固定声线人设,跨平台复用。

做有声内容创作的个体户。播客模板、有声书模板、新闻模板,这些预设降低的是启动门槛,不是艺术上限——你仍然可以自定义环境设定和对话指令。

07 没说的那些话

谷歌博客里有句挺微妙的表述:「一旦表演被完善,这些精确参数可以导出为Gemini API代码,确保在各种项目和平台上保持一致、可识别的声音。」

"完善"和"一致"之间,藏着对当前技术局限的承认。AI语音还没法一次到位,需要人工迭代调参。但谷歌把调参过程产品化了,让你愿意为这个"半成品"状态付费——因为导出成代码后,复用成本趋近于零。

这是一种很硅谷的商业模式:不把技术包装成魔法,而是把"调参"本身变成可交付的工作流。

08 对比竞品的位置

ElevenLabs的优势在声音克隆和情感细腻度,OpenAI的Voice Mode强在多模态实时交互,亚马逊微软主打企业级稳定和合规。谷歌这次切的是"可控性"这个垂直维度。

不是要做最好的声音,是要做最好用的声音基础设施。这个定位对开发者友好,对谷歌自己的云生态更友好——Vertex AI的绑定意味着企业客户一旦接入,迁移成本会指数级上升。

09 一个值得观察的指标

接下来三个月,看两个数据:一是Artificial Analysis榜单上Flash TTS的排名变化,二是Google Vids的Demo使用量。前者反映技术口碑,后者验证大众兴趣。

如果排名上升但Demo冷清,说明产品叫好不叫座,控制力是伪需求;如果Demo火爆但排名下滑,说明易用性牺牲了质量,开发者不会买单。只有两边都稳,才能证明"导演级控制"这个卖点真的成立。

至于普通用户,现在就可以去Google Vids试试,看看能不能调教出一个既不像Siri也不像客服机器人的声音——或者,干脆调教出一个最像客服机器人的声音,用来应付那些你不想接的电话。