你正在开发一个跨国客服语音机器人。用户突然从英语切换到印地语,系统需要:先检测语言→切换模型→重新建立连接。整个过程可能要2-3秒,对话早已冷场。

Deepgram今天发布的Flux Multilingual,想把这套复杂流程压缩成一次模型调用

打开网易新闻 查看精彩图片

一个模型塞了10种语言

Flux Multilingual把英语、西班牙语、法语、德语、印地语、俄语、葡萄牙语、日语、意大利语、荷兰语打包进单一模型和单一接口。Deepgram称其为"首个多语言对话语音识别模型",区别于传统自动语音识别(自动语音识别)——后者为转录优化,前者为对话流设计。

关键能力在于实时语言检测和通话中切换。系统可以接受开发者预设的语言提示,也能自动检测。当说话者在同一段对话中混用语言时,模型原生支持代码切换(code-switching),无需外部路由层介入。

传统方案需要开发者拼接多个转录模型、语言检测层和路由逻辑。这种架构的代价是延迟和脆弱的系统交接。Flux Multilingual用单一感知模型替代整个技术栈。

400毫秒内的对话节奏

模型采用基于模型的轮次检测(model-based turn detection),而非传统的静音检测来判断说话者是否结束发言。端到端决策时间在400毫秒以内。

Deepgram声称该系统在所有10种支持语言上达到单语言级别的准确率,并原生处理打断。发布版本与现有Flux接口向后兼容,可通过云端接口或私有化部署获取,提供欧盟节点和软件开发工具包。

「语音智能体很快将成为全球企业与客户互动的默认方式,」Deepgram联合创始人兼首席执行官Scott Stephenson表示,「Flux Multilingual让开发者能用单一感知模型构建全球语音智能体,具备通话中切换语言的能力。现在企业可以向任何市场、任何客户提供同样无缝的体验。」

20万开发者的选择

据Deepgram披露,超过20万名开发者和1300家组织使用其平台,覆盖语音转文本、文本转语音和完整语音对语音能力。该公司累计处理超过5万年的音频,转录超过1万亿词。

Deepgram为风险投资支持的创业公司,累计融资约2.16亿美元,包括今年1月的1.3亿美元轮次。投资方包括Madrona Venture Group、Tiger Global Management、Wing Venture Capital等。

Flux Multilingual现已全面可用。Deepgram正提供限时促销价,覆盖Flux Multilingual和Nova-3模型的流式语音转文本服务。