OpenAI连发三款语音模型：推理、翻译、实时转写

算力游侠

2026-05-08 02:13 ·北京

OpenAI刚刚发布了三款实时语音模型，称它们将"为开发者解锁全新类别的语音应用"。三款模型各有专攻，分别面向推理、翻译和实时转写三个场景。

第一款是GPT-Realtime-2。OpenAI将其定位为GPT-5级别的语音推理模型，专为实时对话设计。官方描述是：模型在推理用户请求的同时保持对话流畅，可以调用工具、处理纠正或打断，并以符合当下情境的方式回应。简单说，它能在"思考"的同时不冷场。

第二款是翻译模型。支持70种输入语言和13种输出语言。这个数字对比很鲜明——输入端覆盖全球主要语种，输出端则聚焦于使用频率最高的语言。对开发者来说，这意味着可以用一套接口覆盖绝大多数跨语言场景。

第三款是GPT-Realtime-Whisper，主打低延迟流式语音转文字。OpenAI强调它"随说随转"，让实时产品感觉更快、更自然——从即时出现的字幕，到跟得上对话节奏的会议记录。

三款模型均已接入OpenAI的Realtime API。定价方面：GPT-Realtime-2为每分钟0.08美元，翻译模型每分钟0.04美元，转写模型每分钟0.02美元。开发者现在可以在Playground中测试，有Codex的用户也可以直接通过提示词将GPT-Realtime-2集成到现有应用。

这次发布的一个信号是：OpenAI正在把语音从"功能"变成"基础设施"。推理、翻译、转写——这三个能力覆盖了语音交互的核心链条。对开发者而言，组合空间很大：一个客服机器人可以同时听懂、思考、用用户母语回应；一个会议工具可以边录边出纪要，还能实时翻译成多国语言。

不过定价也划出了门槛。以GPT-Realtime-2为例，每分钟0.08美元意味着每小时4.8美元。对C端小应用不算便宜，但对B端场景——比如替代人工客服或同传——这个成本结构有竞争力。关键看开发者能不能找到足够高的价值锚点。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴