OpenAI 发布三款实时语音大模型：语音交互进入新纪元|openai|上下文|开源模型|智能体|翻译|语音|调用

2026年5月8日，OpenAI 正式发布三款全新实时语音模型，吹响了语音 AI 赛道的新一轮冲锋号。这一次不是单一的"更自然"，而是三款各司其职的产品——推理、翻译、转录，覆盖了语音应用最核心的三个场景。

三款模型，一文读懂 1. GPT-Realtime-2：首款 GPT-5 级推理语音模型

这是今天最受关注的产品。GPT-Realtime-2 内置 GPT-5 级别的推理能力，意味着它不再只是"听到→回应"，而是能够在对话进行中同步完成推理、工具调用、上下文管理。

具体能力：

前置短语（Pre-phrasing）：智能体可以说"让我查一下"再处理，用户体验更流畅
并行工具调用：同时调用多个工具，并通过"正在查看你的日历"这类提示让过程可感知
上下文窗口从 32K 扩展到 128K：支持更长的连贯会话和复杂任务
五档推理强度：minimal / low / medium / high / xhigh，开发者可灵活平衡延迟与深度

评测数据：

Big Bench Audio 音频智能评测，比上一代（GPT-Realtime-1.5）提升15.2%
Audio MultiChallenge 指令遵循评测，比上一代提升13.8%

2. GPT-Realtime-Translate：实时翻译，语速同步

实时翻译模型，支持70+ 种输入语言 → 13 种输出语言，翻译速度与说话者同步。

这意味着你可以用普通话说话，对方实时听到法语/日语/西班牙语……不再是"说完等翻译"，而是真正的同传体验。

应用场景：

跨境客服：用母语沟通，消除语言障碍
国际会议：实时生成多语言字幕
教育：留学生用母语听课，教师听到即时翻译
旅行/医疗：关键场景下的无障碍沟通

3. GPT-Realtime-Whisper：流式转录，边说边写

专为低延迟设计的流式语音转文字模型。说话的同时，文字已经出现在屏幕上。

应用场景：

即时字幕（直播、会议）
会议记录自动生成
课堂/活动实时文字化
配合语音智能体，实现"边听边理解"

定价：三款模型怎么收费？

模型

定价

GPT-Realtime-2

音频输入百万（缓存输入 0.40）；音频输出 $64/百万token

GPT-Realtime-Translate$0.034/分钟GPT-Realtime-Whisper$0.017/分钟

翻译和转录的价格已经非常亲民，实时翻译每分钟不到 4 美分，转录每分钟不到 2 美分。

为什么说这是"语音交互新纪元"？

过去要实现一个完整的语音智能体，需要：语音识别（Whisper）→ 文本理解（LLM）→ 语音合成（TTS），三层串联，延迟高、体验割裂。

OpenAI 这次的思路是：让语音模型原生具备推理和行动能力。

现在的语音智能体可以：

理解用户的真实意图和上下文
在对话进行中调用工具（查日历、发邮件、预订会议室）
实时翻译消除语言障碍
边说话边生成文字记录

从"一问一答"进化到"能真正完成工作的语音界面"。

开发者的新武器：Realtime API

三款模型均已上线Realtime API，开发者可通过 WebRTC 快速集成。

关键功能：

远程 MCP 服务器支持：直接连接外部工具（Stripe 支付、数据库等）
图像输入：语音模型也能"看"，可以问"这张截图里写的什么"
SIP 协议支持：直接打电话，接入公共电话网络

结语

语音正在成为人与软件之间最自然的交互界面。开车时求助、走路时改签、边做事边完成任务——不需要停下来打字。

OpenAI 今天的三款模型，把实时音频从简单的一问一答，升级成能真正完成工作的语音界面。推理、翻译、转录——三剑出鞘，语音 AI 的应用空间被彻底打开。

这场变革，才刚刚开始。

OpenAI Platform: platform.openai.com
Realtime API 文档: platform.openai.com/docs/guides/realtime
Playground 测试: platform.openai.com/playground

OpenAI 发布三款实时语音大模型：语音交互进入新纪元

热搜

热门跟贴

热搜

热门跟贴

相关推荐

奥特曼两大「死对头」联手，但你才是这场 Claude 发布会最大的赢家

Moltbot作者被Claude刁难后：MiniMax M2.1是最优秀的开源模型

撬开大模型黑箱！Anthropic新研究把AI思考过程公开了，隐藏动机发现率涨了4倍

晋升最快的工程师，都在干同一件事

大脑的3个求救信号，我替你翻译出来

AI突现首例自我复制！横跨4国160小时无限繁殖

对话亚马逊云科技Mai-Lan：S3的下一个战场，如何应对Agent时代的数据消费狂潮

奥特曼“官宣” OpenAI 手机

外卖小哥冒死冲进火场救火 被物业收取50元“灭火器使用费”

神经计算机横空出世：AI不再调用软件，而是直接长成一台计算机

Claude Code之父：我们公司已没真人写代码了

24岁掌管55亿美元！从被OpenAI扫地出门到华尔街投资新王：Leopold的“开挂人生”

把《遇见》翻译成英文版唱给外国女生听！

卢 涛：日语有什么用？

三部门：加快研究智能体相关政策法规及伦理规范

著名翻译家庄绎传因肺部感染逝世，享年93岁

估值逼近1万亿美元！全球最值钱的AI创企，要易主了

AReaL v1.0开源，智能体强化学习「一键接入」

这大佐的翻译，可真是太通人性

PackingStar双智能体博弈，攻克14维难题

外卖小哥冒死冲进火场救火被物业收取50元“灭火器使用费”

卢涛：日语有什么用？