2026年5月8日,OpenAI 正式发布三款全新实时语音模型,吹响了语音 AI 赛道的新一轮冲锋号。这一次不是单一的"更自然",而是三款各司其职的产品——推理、翻译、转录,覆盖了语音应用最核心的三个场景。
三款模型,一文读懂 1. GPT-Realtime-2:首款 GPT-5 级推理语音模型
这是今天最受关注的产品。GPT-Realtime-2 内置 GPT-5 级别的推理能力,意味着它不再只是"听到→回应",而是能够在对话进行中同步完成推理、工具调用、上下文管理。
具体能力:
前置短语(Pre-phrasing):智能体可以说"让我查一下"再处理,用户体验更流畅
并行工具调用:同时调用多个工具,并通过"正在查看你的日历"这类提示让过程可感知
上下文窗口从 32K 扩展到 128K:支持更长的连贯会话和复杂任务
五档推理强度:minimal / low / medium / high / xhigh,开发者可灵活平衡延迟与深度
评测数据:
Big Bench Audio 音频智能评测,比上一代(GPT-Realtime-1.5)提升15.2%
Audio MultiChallenge 指令遵循评测,比上一代提升13.8%
实时翻译模型,支持70+ 种输入语言 → 13 种输出语言,翻译速度与说话者同步。
这意味着你可以用普通话说话,对方实时听到法语/日语/西班牙语……不再是"说完等翻译",而是真正的同传体验。
应用场景:
跨境客服:用母语沟通,消除语言障碍
国际会议:实时生成多语言字幕
教育:留学生用母语听课,教师听到即时翻译
旅行/医疗:关键场景下的无障碍沟通
专为低延迟设计的流式语音转文字模型。说话的同时,文字已经出现在屏幕上。
应用场景:
即时字幕(直播、会议)
会议记录自动生成
课堂/活动实时文字化
配合语音智能体,实现"边听边理解"
模型
定价
GPT-Realtime-2
音频输入 百 万 ( 缓 存 输 入 0.40);音频输出 $64/百万token
GPT-Realtime-Translate$0.034/分钟GPT-Realtime-Whisper$0.017/分钟
翻译和转录的价格已经非常亲民,实时翻译每分钟不到 4 美分,转录每分钟不到 2 美分。
为什么说这是"语音交互新纪元"?
过去要实现一个完整的语音智能体,需要:语音识别(Whisper)→ 文本理解(LLM)→ 语音合成(TTS),三层串联,延迟高、体验割裂。
OpenAI 这次的思路是:让语音模型原生具备推理和行动能力。
现在的语音智能体可以:
理解用户的真实意图和上下文
在对话进行中调用工具(查日历、发邮件、预订会议室)
实时翻译消除语言障碍
边说话边生成文字记录
从"一问一答"进化到"能真正完成工作的语音界面"。
开发者的新武器:Realtime API
三款模型均已上线Realtime API,开发者可通过 WebRTC 快速集成。
关键功能:
远程 MCP 服务器支持:直接连接外部工具(Stripe 支付、数据库等)
图像输入:语音模型也能"看",可以问"这张截图里写的什么"
SIP 协议支持:直接打电话,接入公共电话网络
语音正在成为人与软件之间最自然的交互界面。开车时求助、走路时改签、边做事边完成任务——不需要停下来打字。
OpenAI 今天的三款模型,把实时音频从简单的一问一答,升级成能真正完成工作的语音界面。推理、翻译、转录——三剑出鞘,语音 AI 的应用空间被彻底打开。
这场变革,才刚刚开始。
OpenAI Platform: platform.openai.com
Realtime API 文档: platform.openai.com/docs/guides/realtime
Playground 测试: platform.openai.com/playground
热门跟贴