亚马逊推Nova Sonic+WebRTC方案，实时语音延迟难题有新解

报错免疫体

2026-05-14 07:55 ·北京

实时语音交互应用有个老毛病：网络一抖，对话就卡。多语言场景下，机器听不懂口音，用户得反复纠正。更麻烦的是，这套系统要兼顾低延迟和高并发，初创团队往往卡在技术门槛上。

AWS最近把两个服务捆在一起卖：Nova Sonic负责"听懂人话"，WebRTC负责"稳住连接"。前者是亚马逊去年发布的语音模型，特点是端到端语音处理，不用先转文字再生成回复，延迟能压到几百毫秒。后者是开源的实时通信协议，自带自适应码率、前向纠错这些网络优化功能。

具体怎么配合？WebRTC在客户端和服务器之间建立点对点连接，网络差的时候自动降码率保流畅。Nova Sonic同时处理语音识别、语义理解和语音合成，支持多轮对话和工具调用——比如用户说"查一下我下周的会议"，模型可以直接调日历API。

AWS给了两个现成的落地场景。一是客服机器人，用户用方言或带口音的普通话提问，系统实时响应，不用等"请稍候"的转圈。二是远程协作工具，跨国团队开会时，WebRTC保证音视频同步，Nova Sonic做实时翻译和纪要生成。

这套方案的核心卖点是"全托管"。WebRTC的信号服务器、中继服务器，Nova Sonic的模型推理和扩缩容，AWS都包圆了。对开发者来说，省掉自己搭基础设施的麻烦，但也意味着被绑在AWS生态里。

开源示例代码已经放出，包括iOS、Android和浏览器的SDK。不过实际落地还得啃文档——WebRTC的编解码协商、NAT穿透这些细节，该踩的坑一个不会少。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴