周三下午,OpenAI在Realtime API中推出了三款音频模型。这不是一次常规更新——GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper的组合,正在把语音AI从"你问我答"推向真正的实时对话。

先看最重磅的GPT-Realtime-2。它把GPT-5级别的推理能力塞进了语音交互里,能处理更复杂的请求而不中断对话脉络。关键升级有三点:支持同时调用多个工具;能用"正在查看你的日历"这类短语实时 narrate 自己的操作;上下文窗口扩到128K tokens,长对话不会"失忆"。开发者还能根据请求复杂度调节推理强度。

打开网易新闻 查看精彩图片

GPT-Realtime-Translate可能是实用价值最高的。它支持70多种输入语言和13种输出语言的实时语音翻译。演示中最惊艳的一幕:中途加入的新说话者换了另一种语言,系统毫无卡顿,把两人同时翻译成英语。这大概是人类离《星际迷航》万能翻译机最近的一次。

第三款GPT-Realtime-Whisper瞄准的是效率场景。传统语音转文字模型要等说话者停嘴才出结果,这款是流式转录——边说边出文字,适用于实时字幕、会议记录等不能等的场景。

目前这三款模型仅向开发者开放,但最终影响的是所有人。已有公司开始测试:Zillow在做能搜房、预约看房的语音助手;Priceline实现了查航班酒店、取消、重新预订的全程语音操作;Vimeo用它做实时转录。

定价层面,Whisper每分钟0.017美元,Translate每分钟0.034美元,GPT-Realtime-2按音频输入token计费,每百万32美元。对开发者来说,门槛不算高;对行业来说,语音交互的底层基础设施已经就位。