OpenAI刚刚发布了三款实时语音模型,称它们将"为开发者解锁全新类别的语音应用"。三款模型各有专攻,分别面向推理、翻译和实时转写三个场景。

第一款是GPT-Realtime-2。OpenAI将其定位为GPT-5级别的语音推理模型,专为实时对话设计。官方描述是:模型在推理用户请求的同时保持对话流畅,可以调用工具、处理纠正或打断,并以符合当下情境的方式回应。简单说,它能在"思考"的同时不冷场。

打开网易新闻 查看精彩图片

第二款是翻译模型。支持70种输入语言和13种输出语言。这个数字对比很鲜明——输入端覆盖全球主要语种,输出端则聚焦于使用频率最高的语言。对开发者来说,这意味着可以用一套接口覆盖绝大多数跨语言场景。

第三款是GPT-Realtime-Whisper,主打低延迟流式语音转文字。OpenAI强调它"随说随转",让实时产品感觉更快、更自然——从即时出现的字幕,到跟得上对话节奏的会议记录。

三款模型均已接入OpenAI的Realtime API。定价方面:GPT-Realtime-2为每分钟0.08美元,翻译模型每分钟0.04美元,转写模型每分钟0.02美元。开发者现在可以在Playground中测试,有Codex的用户也可以直接通过提示词将GPT-Realtime-2集成到现有应用。

这次发布的一个信号是:OpenAI正在把语音从"功能"变成"基础设施"。推理、翻译、转写——这三个能力覆盖了语音交互的核心链条。对开发者而言,组合空间很大:一个客服机器人可以同时听懂、思考、用用户母语回应;一个会议工具可以边录边出纪要,还能实时翻译成多国语言。

不过定价也划出了门槛。以GPT-Realtime-2为例,每分钟0.08美元意味着每小时4.8美元。对C端小应用不算便宜,但对B端场景——比如替代人工客服或同传——这个成本结构有竞争力。关键看开发者能不能找到足够高的价值锚点。