OpenAI发布三款语言模型，聚焦实时交互等场景

三易生活

2026-05-09 20:05 ·湖北 ·三易生活官方网易号

日前，OpenAI方面发布三款全新实时语音模型，分别为GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。

其中，GPT-Realtime-2专为实时语音交互设计，上下文窗口由上一代的32K增长至128K，是首款具备GPT-5级推理能力的语音模型，可以在保持对话自然流畅的前提下，实时进行逻辑推理、调用工具，并处理用户的打断或纠正。这就意味着开发者可以借此构建更复杂的语音助手，并执行多步骤任务。

而且GPT-Realtime-2还支持调节推理强度，即支持开发者可根据需求启用最低、低、中、高和超高等不同等级的推理能力，从而在简单交互的较低延迟和复杂请求的更周密推理之间取得平衡。

OpenAI方面公布的相关信息显示，GPT-Realtime-2在Big Bench Audio中的得分上GPT-Realtime-1.5高15.2%，在Audio MultiChallenge中的得分比GPT-Realtime-1.5高13.8%。

而GPT-Realtime-Translate则聚焦实时语言翻译场景，支持70种输入语言和13种输出语言，可自动识别输入语言，并输出翻译后的语音和文本，适用于跨国会议或实时沟通场景。OpenAI方面表示，传统语音翻译常常要求说话人控制说话节奏，而GPT-Realtime-Translate更接近连续口译的形态。

GPT-Realtime-Whisper则专注于低延迟语音转文本，能在用户说话的同时转录音频。

目前这三款模型已集成至Realtime API供开发者使用，旨在助力构建更自然、更智能、更实时响应的语音体验。

价格方面，GPT-Realtime-2的音频输入定价为每百万Token 32美元，缓存输入每百万Token 0.4美元，音频输出为每百万Token 64美。GPT-Realtime-Translate和GPT-Realtime-Whisper则是按使用时长计费，分别为每分钟0.034美元和0.017美元。

【本文图片来自网络】

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴