语音赛道暗战：两家AI公司如何定义"真实"

固件更新中

2026-04-15 10:15 ·北京

当99%的语音合成还在追求"像不像人"时，头部玩家已经开始回答下一个问题：像人之后，像什么场景的人？

两条技术路线的分野

Deepgram和Modulate代表了语音AI的两种底层思路。前者深耕语音识别（将语音转为文字），后者押注语音合成与实时变换——也就是Modulate反复提及的"互联网语音层"。

这个定位本身就很值得拆解。不是"语音工具"，不是"配音软件"，而是"层"——意味着基础设施级别的野心。

真实世界的Benchmark是什么

实验室指标正在失效。延迟低于200毫秒、WER（词错率）低于5%——这些数字在安静办公室里漂亮，一旦进入游戏开黑、外卖电话、跨境会议的真实噪音场，模型立刻露怯。

Modulate的解法是把"场景适配"写进产品基因。游戏玩家需要情绪饱满的队友语音，客服场景需要可控的音色一致性，社交产品则需要实时变声的低延迟。同一套技术栈，三种截然不同的优化目标。

商业模式的隐性博弈

Deepgram按分钟计费，走的是云服务的经典路径；Modulate的"语音层"叙事，暗示更重的生态绑定——SDK嵌入、按调用量阶梯定价、甚至未来可能的开发者分成。

后者的风险在于：客户一旦接入，迁移成本极高；机会也在于此。

一个未被回答的问题

当合成语音与真人语音在技术指标上无法区分，平台方需要新的信任机制。Modulate反复声明的"voice layer"，是否包含这层伦理基础设施？还是说，验证真伪的责任被悄然推给了下游应用？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴