OpenAI发布三款语音模型：实时翻译70+语言，定价0.017美元起

灰度测试中

2026-05-08 14:22 ·北京

周三下午，OpenAI在Realtime API中推出了三款音频模型。这不是一次常规更新——GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper的组合，正在把语音AI从"你问我答"推向真正的实时对话。

先看最重磅的GPT-Realtime-2。它把GPT-5级别的推理能力塞进了语音交互里，能处理更复杂的请求而不中断对话脉络。关键升级有三点：支持同时调用多个工具；能用"正在查看你的日历"这类短语实时 narrate 自己的操作；上下文窗口扩到128K tokens，长对话不会"失忆"。开发者还能根据请求复杂度调节推理强度。

GPT-Realtime-Translate可能是实用价值最高的。它支持70多种输入语言和13种输出语言的实时语音翻译。演示中最惊艳的一幕：中途加入的新说话者换了另一种语言，系统毫无卡顿，把两人同时翻译成英语。这大概是人类离《星际迷航》万能翻译机最近的一次。

第三款GPT-Realtime-Whisper瞄准的是效率场景。传统语音转文字模型要等说话者停嘴才出结果，这款是流式转录——边说边出文字，适用于实时字幕、会议记录等不能等的场景。

目前这三款模型仅向开发者开放，但最终影响的是所有人。已有公司开始测试：Zillow在做能搜房、预约看房的语音助手；Priceline实现了查航班酒店、取消、重新预订的全程语音操作；Vimeo用它做实时转录。

定价层面，Whisper每分钟0.017美元，Translate每分钟0.034美元，GPT-Realtime-2按音频输入token计费，每百万32美元。对开发者来说，门槛不算高；对行业来说，语音交互的底层基础设施已经就位。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴