OpenAI三箭齐发：语音模型首次接入GPT-5级推理

硬核玩家2哈

2026-05-08 09:16 ·北京

语音交互的"卡顿感"终于要结束了。OpenAI最新发布的三款实时语音模型，把延迟、打断、多语言三大痛点一次性打包解决。

核心看点是GPT-Realtime-2。这是首款具备GPT-5级推理能力的语音模型——注意，不是文字版GPT-5，是语音模型直接拥有同等推理水平。它能在对话流中实时思考、调用工具、处理用户的打断和纠正，开发者终于能做出真正"听得懂人话"的语音助手。

定价策略很清晰：音频输入每百万Token 32美元（约218元人民币），输出翻倍到64美元，缓存输入几乎免费——0.4美元。这个价差设计明显在鼓励多轮对话场景。

另外两款分工明确。GPT-Realtime-Translate支持70种输入语言转13种输出语言，翻译速度跟说话同步，跨国会议不用等；GPT-Realtime-Whisper专攻低延迟流式转录，边说边出字幕，按分钟计费0.017美元。

翻译和转录走分钟计费，推理模型走Token计费——OpenAI用两套计价体系区分了"被动工具"和"主动智能"的边界。开发者按需调用，Realtime API成了语音应用的底层基础设施。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴