OpenAI首发GPT-5级推理语音模型，传统同传不存在了？|gpt|openai|上下文|推理|翻译|自然语言|语音模型|调用

智东西
编译高远瞩
编辑程茜

智东西5月8日报道，5月7日，OpenAI在Realtime API中推出三款音频模型——GPT‑Realtime‑2（首个具备GPT‑5级推理的语音模型）、GPT‑Realtime‑Translate（实时翻译）和GPT‑Realtime‑Whisper（流式转录），分别面向复杂推理、实时翻译和流式转录场景，旨在帮助开发者构建能够倾听、推理、翻译、转录并实时行动的“语音代理”智能体。

在长达约40秒的双人对话演示中，新语音模型对连续的法语语音输入进行了实时翻译，英语译文在对方说话过程中便几乎同步生成。

▲实时翻译演示界面，上方为法语输入波形，下方为实时生成的英语译文片段

OpenAI CEO Sam Altman发文称：“人们真的开始大量使用语音与AI交互，尤其是当他们需要快速传递大量上下文的时候。GPT-Realtime-2今天在API中上线，这是一个相当大的进步。”

▲Sam Altman在X平台上发文

据Scale Labs公布的榜单，GPT-Realtime-2（xHigh）以48.45%的平均通过率（APR）位居Audio MultiChallenge S2S排行榜首位，超越了谷歌刚发布的Gemini-3.1-flash-live-preview（Thinking）的36.06%以及前代GPT-Realtime-1.5的34.73%，并且在指令保留方面从前代的36.7%跃升至70.8%，实现翻倍。

▲主流实时音频模型性能对比，GPT-realtime-2以48.45分位居榜首，领先其他竞品（图源Scale Labs）

其中GPT‑Realtime‑2在Big Bench Audio基准测试中音频智能得分比前代GPT‑Realtime‑1.5高出15.2%，在Audio MultiChallenge指令跟随测试中高出13.8%，定价为每百万音频输入token 32美元（约合人民币217元）（缓存输入token 0.4美元）（约合人民币2.7元）、每百万音频输出token 64美元（约合人民币435元）。

GPT‑Realtime‑Translate支持70多种输入语言和13种输出语言，定价为每分钟0.034美元（约合人民币0.23元）。

GPT‑Realtime‑Whisper提供低延迟流式语音转录，定价为每分钟0.017美元（约合人民币0.11元）。

三款模型均已集成至Realtime API，开发者可在Playground中测试，也可在Codex中打开提示快速将GPT‑Realtime‑2添加到现有应用或启动新项目。

OpenAI称，构建有用的语音产品不仅仅是快速轮转或声音自然，语音代理需要理解用户意图、跟踪上下文、在请求变更时恢复、在对话进行中调用工具并以适当的语气回应，新发布的模型正是针对这些挑战而设计。

一、GPT‑Realtime‑2：具备GPT‑5级推理与128K上下文的新一代语音模型

GPT‑Realtime‑2是OpenAI首个集成GPT‑5级推理的语音模型，与上一代GPT‑Realtime‑1.5相比，该模型专为处理更复杂的用户请求而设计，能够调用工具、处理打断、在长语音会话中保持上下文连贯。

▲GPT‑Realtime‑2在CRM场景中演示实时工具调用与会议摘要生成

OpenAI官方进一步披露了GPT‑Realtime‑2的多项技术增强：

上下文窗口大幅扩展：从32K tokens提升至128K tokens，支持更长的连贯会话和更复杂的代理工作流。
可调节的推理强度：开发者可以在minimal、low、medium、high、xhigh五档中选择，默认值为low，以便在简单交互中获得较低延迟，而在复杂请求中进行更谨慎的推理。
前导语（Preambles）：开发者可启用“让我查一下”或“请稍等，我正在核实”等短语音提示，让用户知道代理正在处理请求。
并行工具调用与工具透明性：模型可同时调用多个工具，并通过“正在检查日历”“正在查询”等语音提示让动作可听，帮助代理在完成任务的同时保持响应性。
更强的恢复行为：当遇到问题时，模型会说出“我现在遇到点困难”之类的语句，而非静默失败或打断对话。
更可控的语气与表达：解决问题时冷静说话，用户沮丧时表现出共情，成功确认行动时保持积极语调。
更强的领域理解：模型能更好地保留专业术语、专有名词、医疗术语以及其他在生产环境中重要的词汇。

在基准测试中，GPT‑Realtime‑2（high）在Big Bench Audio上的音频智能得分比GPT‑Realtime‑1.5高出15.2%；GPT‑Realtime‑2（xhigh）在Audio MultiChallenge指令跟随测试中得分比前代高出13.8%，在前代基础上展示了更强的推理、上下文管理和实时对话控制能力。

Big Bench Audio评估支持音频输入的语言模型的复杂推理能力，Audio MultiChallenge则评估多轮对话系统中的指令跟随、上下文整合、自洽性以及处理自然语音纠正的能力。

早期测试客户包括在线房地产平台Zillow、在线旅游公司Priceline以及欧洲电信公司德国电信（Deutsche Telekom）。

Zillow正在构建一个能够倾听、推理并执行请求的助手，例如“在我可承受价格范围内找房子，避开繁忙街道，并安排周六看房”。Priceline正致力于实现完全由语音管理的完整旅行体验：以对话方式搜索航班和酒店，处理航班延误后调整酒店预订等变更，获取TSA等待时间的实时更新，并在旅客抵达后翻译对话。

在定价方面，GPT‑Realtime‑2每百万音频输入token为32美元（约合人民币217元）（缓存输入token为0.4美元）（约合人民币2.7元），每百万音频输出token为64美元（约合人民币435元）。

二、GPT‑Realtime‑Translate：支持70+输入语言与13种输出语言的实时翻译模型

GPT‑Realtime‑Translate是一款专为实时语音翻译设计的模型，该模型能够“跟上说话者的节奏”进行对话式实时翻译，并支持从70多种语言翻译成13种输出语言，面向客户支持、教育等场景。

OpenAI官方更详细地介绍了该模型的能力与应用：

支持70多种输入语言和13种输出语言，可应用于客户支持、跨境销售、教育、活动、媒体以及服务全球受众的创作者平台。
实时翻译需要保持语义准确的同时跟上说话者节奏，即使人们自然说话、切换话题、使用地区发音或领域特定语言时也能稳定工作。
德国电信正在测试该模型用于多语言语音交互，更低的延迟和更强的流畅度使跨语言对话感觉更自然。
视频平台Vimeo使用GPT‑Realtime‑Translate在播放过程中实时翻译产品教育视频，全球客户无需等待单独制作的版本，即可用自己偏好的语言收听更新。

▲Vimeo启用GPT‑Realtime‑Translate为视频提供多语言实时配音

OpenAI在官方博客中演示了一个典型“语音到语音”（Voice‑to‑voice）的模式：人工智能可以帮助实时对话跨语言、跨任务或跨变化上下文继续进行，其定价为每分钟0.034美元（约合人民币0.23元）。

三、GPT‑Realtime‑Whisper：低延迟流式转录，实时生成字幕与会议记录

GPT‑Realtime‑Whisper是一个全新的流式语音转录模型，该模型提供实时语音转文字功能，可在说话者讲话的同时生成字幕、会议记录和工作流程更新。

OpenAI官方进一步阐述了其技术优势与应用场景：

模型在人们说话时实时转录音频，使实时产品感觉更快、更灵敏、更自然，从即时出现的字幕，到能跟上对话速度的会议记录。
可以在对话仍在进行时就生成备注和摘要，为客服、医疗、销售、招聘等高频语音交互创建更快速的后续工作流程。
支持为会议、课堂、广播和活动提供实时字幕；为正在进行中的对话生成笔记和摘要；构建需要连续理解用户的语音代理。
使实时语音能够在业务工作流中即时使用

OpenAI在官方博客中将其归类为“系统到语音”（Systems‑to‑voice）模式的一种体现，软件可以将上下文转化为实时语音指导。

例如，一个旅行应用可以主动告诉旅行者：“您的入境航班延误了，但您仍能赶上转机。我找到了新登机口，规划了穿过航站楼的最快路线，您的行李预计仍会转运。”

该模型定价为每分钟0.017美元（约合人民币0.11元）。

结语：语音模型全集成，Realtime API开放测试

在安全方面，OpenAI为Realtime API植入了多层防护与缓解措施：通过主动分类器监控API会话，一旦检测到违反有害内容指南的对话即可中止，开发者也可以使用Agents SDK轻松添加自己的额外安全护栏。OpenAI的使用政策禁止将其服务输出用于垃圾邮件、欺诈或其他有害目的，并要求开发者向最终用户明确表明正在与AI交互（除非从上下文中已显而易见）。Realtime API完全支持欧盟数据驻留要求，并覆盖企业隐私承诺。

OpenAI总结道：“这些模型一起将实时音频从简单的‘问与答’推向真正能工作的语音界面。在对话展开时，可以倾听、推理、翻译、转录并采取行动。”

来源：OpenAI、路透社、TechCrunch