智东西
编译 高远瞩
编辑 程茜
智东西5月8日报道,5月7日,OpenAI在Realtime API中推出三款音频模型——GPT‑Realtime‑2(首个具备GPT‑5级推理的语音模型)、GPT‑Realtime‑Translate(实时翻译)和GPT‑Realtime‑Whisper(流式转录),分别面向复杂推理、实时翻译和流式转录场景,旨在帮助开发者构建能够倾听、推理、翻译、转录并实时行动的“语音代理”智能体。
在长达约40秒的双人对话演示中,新语音模型对连续的法语语音输入进行了实时翻译,英语译文在对方说话过程中便几乎同步生成。
▲实时翻译演示界面,上方为法语输入波形,下方为实时生成的英语译文片段
OpenAI CEO Sam Altman发文称:“人们真的开始大量使用语音与AI交互,尤其是当他们需要快速传递大量上下文的时候。GPT-Realtime-2今天在API中上线,这是一个相当大的进步。”
▲Sam Altman在X平台上发文
据Scale Labs公布的榜单,GPT-Realtime-2(xHigh)以48.45%的平均通过率(APR)位居Audio MultiChallenge S2S排行榜首位,超越了谷歌刚发布的Gemini-3.1-flash-live-preview(Thinking)的36.06%以及前代GPT-Realtime-1.5的34.73%,并且在指令保留方面从前代的36.7%跃升至70.8%,实现翻倍。
▲主流实时音频模型性能对比,GPT-realtime-2以48.45分位居榜首,领先其他竞品(图源Scale Labs)
其中GPT‑Realtime‑2在Big Bench Audio基准测试中音频智能得分比前代GPT‑Realtime‑1.5高出15.2%,在Audio MultiChallenge指令跟随测试中高出13.8%,定价为每百万音频输入token 32美元(约合人民币217元)(缓存输入token 0.4美元)(约合人民币2.7元)、每百万音频输出token 64美元(约合人民币435元)。
GPT‑Realtime‑Translate支持70多种输入语言和13种输出语言,定价为每分钟0.034美元(约合人民币0.23元)。
GPT‑Realtime‑Whisper提供低延迟流式语音转录,定价为每分钟0.017美元(约合人民币0.11元)。
三款模型均已集成至Realtime API,开发者可在Playground中测试,也可在Codex中打开提示快速将GPT‑Realtime‑2添加到现有应用或启动新项目。
OpenAI称,构建有用的语音产品不仅仅是快速轮转或声音自然,语音代理需要理解用户意图、跟踪上下文、在请求变更时恢复、在对话进行中调用工具并以适当的语气回应,新发布的模型正是针对这些挑战而设计。
一、GPT‑Realtime‑2:具备GPT‑5级推理与128K上下文的新一代语音模型
GPT‑Realtime‑2是OpenAI首个集成GPT‑5级推理的语音模型,与上一代GPT‑Realtime‑1.5相比,该模型专为处理更复杂的用户请求而设计,能够调用工具、处理打断、在长语音会话中保持上下文连贯。
▲GPT‑Realtime‑2在CRM场景中演示实时工具调用与会议摘要生成
OpenAI官方进一步披露了GPT‑Realtime‑2的多项技术增强:
- 上下文窗口大幅扩展:从32K tokens提升至128K tokens,支持更长的连贯会话和更复杂的代理工作流。
- 可调节的推理强度:开发者可以在minimal、low、medium、high、xhigh五档中选择,默认值为low,以便在简单交互中获得较低延迟,而在复杂请求中进行更谨慎的推理。
- 前导语(Preambles):开发者可启用“让我查一下”或“请稍等,我正在核实”等短语音提示,让用户知道代理正在处理请求。
- 并行工具调用与工具透明性:模型可同时调用多个工具,并通过“正在检查日历”“正在查询”等语音提示让动作可听,帮助代理在完成任务的同时保持响应性。
- 更强的恢复行为:当遇到问题时,模型会说出“我现在遇到点困难”之类的语句,而非静默失败或打断对话。
- 更可控的语气与表达:解决问题时冷静说话,用户沮丧时表现出共情,成功确认行动时保持积极语调。
- 更强的领域理解:模型能更好地保留专业术语、专有名词、医疗术语以及其他在生产环境中重要的词汇。
在基准测试中,GPT‑Realtime‑2(high)在Big Bench Audio上的音频智能得分比GPT‑Realtime‑1.5高出15.2%;GPT‑Realtime‑2(xhigh)在Audio MultiChallenge指令跟随测试中得分比前代高出13.8%,在前代基础上展示了更强的推理、上下文管理和实时对话控制能力。
Big Bench Audio评估支持音频输入的语言模型的复杂推理能力,Audio MultiChallenge则评估多轮对话系统中的指令跟随、上下文整合、自洽性以及处理自然语音纠正的能力。
早期测试客户包括在线房地产平台Zillow、在线旅游公司Priceline以及欧洲电信公司德国电信(Deutsche Telekom)。
Zillow正在构建一个能够倾听、推理并执行请求的助手,例如“在我可承受价格范围内找房子,避开繁忙街道,并安排周六看房”。Priceline正致力于实现完全由语音管理的完整旅行体验:以对话方式搜索航班和酒店,处理航班延误后调整酒店预订等变更,获取TSA等待时间的实时更新,并在旅客抵达后翻译对话。
在定价方面,GPT‑Realtime‑2每百万音频输入token为32美元(约合人民币217元)(缓存输入token为0.4美元)(约合人民币2.7元),每百万音频输出token为64美元(约合人民币435元)。
二、GPT‑Realtime‑Translate:支持70+输入语言与13种输出语言的实时翻译模型
GPT‑Realtime‑Translate是一款专为实时语音翻译设计的模型,该模型能够“跟上说话者的节奏”进行对话式实时翻译,并支持从70多种语言翻译成13种输出语言,面向客户支持、教育等场景。
OpenAI官方更详细地介绍了该模型的能力与应用:
- 支持70多种输入语言和13种输出语言,可应用于客户支持、跨境销售、教育、活动、媒体以及服务全球受众的创作者平台。
- 实时翻译需要保持语义准确的同时跟上说话者节奏,即使人们自然说话、切换话题、使用地区发音或领域特定语言时也能稳定工作。
- 德国电信正在测试该模型用于多语言语音交互,更低的延迟和更强的流畅度使跨语言对话感觉更自然。
- 视频平台Vimeo使用GPT‑Realtime‑Translate在播放过程中实时翻译产品教育视频,全球客户无需等待单独制作的版本,即可用自己偏好的语言收听更新。
▲Vimeo启用GPT‑Realtime‑Translate为视频提供多语言实时配音
OpenAI在官方博客中演示了一个典型“语音到语音”(Voice‑to‑voice)的模式:人工智能可以帮助实时对话跨语言、跨任务或跨变化上下文继续进行,其定价为每分钟0.034美元(约合人民币0.23元)。
三、GPT‑Realtime‑Whisper:低延迟流式转录,实时生成字幕与会议记录
GPT‑Realtime‑Whisper是一个全新的流式语音转录模型,该模型提供实时语音转文字功能,可在说话者讲话的同时生成字幕、会议记录和工作流程更新。
OpenAI官方进一步阐述了其技术优势与应用场景:
- 模型在人们说话时实时转录音频,使实时产品感觉更快、更灵敏、更自然,从即时出现的字幕,到能跟上对话速度的会议记录。
- 可以在对话仍在进行时就生成备注和摘要,为客服、医疗、销售、招聘等高频语音交互创建更快速的后续工作流程。
- 支持为会议、课堂、广播和活动提供实时字幕;为正在进行中的对话生成笔记和摘要;构建需要连续理解用户的语音代理。
- 使实时语音能够在业务工作流中即时使用
OpenAI在官方博客中将其归类为“系统到语音”(Systems‑to‑voice)模式的一种体现,软件可以将上下文转化为实时语音指导。
例如,一个旅行应用可以主动告诉旅行者:“您的入境航班延误了,但您仍能赶上转机。我找到了新登机口,规划了穿过航站楼的最快路线,您的行李预计仍会转运。”
该模型定价为每分钟0.017美元(约合人民币0.11元)。
结语:语音模型全集成,Realtime API开放测试
在安全方面,OpenAI为Realtime API植入了多层防护与缓解措施:通过主动分类器监控API会话,一旦检测到违反有害内容指南的对话即可中止,开发者也可以使用Agents SDK轻松添加自己的额外安全护栏。OpenAI的使用政策禁止将其服务输出用于垃圾邮件、欺诈或其他有害目的,并要求开发者向最终用户明确表明正在与AI交互(除非从上下文中已显而易见)。Realtime API完全支持欧盟数据驻留要求,并覆盖企业隐私承诺。
OpenAI总结道:“这些模型一起将实时音频从简单的‘问与答’推向真正能工作的语音界面。在对话展开时,可以倾听、推理、翻译、转录并采取行动。”
来源:OpenAI、路透社、TechCrunch
热门跟贴