2026年5月8日,OpenAI 正式发布三款全新实时语音模型,吹响了语音 AI 赛道的新一轮冲锋号。这一次不是单一的"更自然",而是三款各司其职的产品——推理、翻译、转录,覆盖了语音应用最核心的三个场景。

三款模型,一文读懂 1. GPT-Realtime-2:首款 GPT-5 级推理语音模型

这是今天最受关注的产品。GPT-Realtime-2 内置 GPT-5 级别的推理能力,意味着它不再只是"听到→回应",而是能够在对话进行中同步完成推理、工具调用、上下文管理。

具体能力:

  • 前置短语(Pre-phrasing):智能体可以说"让我查一下"再处理,用户体验更流畅

  • 并行工具调用:同时调用多个工具,并通过"正在查看你的日历"这类提示让过程可感知

  • 上下文窗口从 32K 扩展到 128K:支持更长的连贯会话和复杂任务

  • 五档推理强度:minimal / low / medium / high / xhigh,开发者可灵活平衡延迟与深度

评测数据:

  • Big Bench Audio 音频智能评测,比上一代(GPT-Realtime-1.5)提升15.2%

  • Audio MultiChallenge 指令遵循评测,比上一代提升13.8%

2. GPT-Realtime-Translate:实时翻译,语速同步

实时翻译模型,支持70+ 种输入语言 → 13 种输出语言,翻译速度与说话者同步。

这意味着你可以用普通话说话,对方实时听到法语/日语/西班牙语……不再是"说完等翻译",而是真正的同传体验。

应用场景:

  • 跨境客服:用母语沟通,消除语言障碍

  • 国际会议:实时生成多语言字幕

  • 教育:留学生用母语听课,教师听到即时翻译

  • 旅行/医疗:关键场景下的无障碍沟通

3. GPT-Realtime-Whisper:流式转录,边说边写

专为低延迟设计的流式语音转文字模型。说话的同时,文字已经出现在屏幕上。

应用场景:

  • 即时字幕(直播、会议)

  • 会议记录自动生成

  • 课堂/活动实时文字化

  • 配合语音智能体,实现"边听边理解"

定价:三款模型怎么收费?

模型

定价

GPT-Realtime-2

音频输入 百 万 ( 缓 存 输 入 0.40);音频输出 $64/百万token

GPT-Realtime-Translate$0.034/分钟GPT-Realtime-Whisper$0.017/分钟

翻译和转录的价格已经非常亲民,实时翻译每分钟不到 4 美分,转录每分钟不到 2 美分。

为什么说这是"语音交互新纪元"?

过去要实现一个完整的语音智能体,需要:语音识别(Whisper)→ 文本理解(LLM)→ 语音合成(TTS),三层串联,延迟高、体验割裂。

OpenAI 这次的思路是:让语音模型原生具备推理和行动能力。

现在的语音智能体可以:

  • 理解用户的真实意图和上下文

  • 在对话进行中调用工具(查日历、发邮件、预订会议室)

  • 实时翻译消除语言障碍

  • 边说话边生成文字记录

从"一问一答"进化到"能真正完成工作的语音界面"。

开发者的新武器:Realtime API

三款模型均已上线Realtime API,开发者可通过 WebRTC 快速集成。

关键功能:

  • 远程 MCP 服务器支持:直接连接外部工具(Stripe 支付、数据库等)

  • 图像输入:语音模型也能"看",可以问"这张截图里写的什么"

  • SIP 协议支持:直接打电话,接入公共电话网络

结语

语音正在成为人与软件之间最自然的交互界面。开车时求助、走路时改签、边做事边完成任务——不需要停下来打字。

OpenAI 今天的三款模型,把实时音频从简单的一问一答,升级成能真正完成工作的语音界面。推理、翻译、转录——三剑出鞘,语音 AI 的应用空间被彻底打开。

这场变革,才刚刚开始。

  • OpenAI Platform: platform.openai.com

  • Realtime API 文档: platform.openai.com/docs/guides/realtime

  • Playground 测试: platform.openai.com/playground