日前,OpenAI方面发布三款全新实时语音模型,分别为GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper。

其中,GPT-Realtime-2专为实时语音交互设计,上下文窗口由上一代的32K增长至128K,是首款具备GPT-5级推理能力的语音模型,可以在保持对话自然流畅的前提下,实时进行逻辑推理、调用工具,并处理用户的打断或纠正。这就意味着开发者可 以借此构建更复杂的语音助手,并执行多步骤任务。

打开网易新闻 查看精彩图片

而且GPT-Realtime-2还支持调节推理强度,即支持开发者可根据需求启用最低、低、中、高和超高等不同等级的推理能力,从而在简单交互的较低延迟和复杂请求的更周密推理之间取得平衡。

OpenAI方面公布的相关信息显示,GPT-Realtime-2在Big Bench Audio中的得分上GPT-Realtime-1.5高15.2%,在Audio MultiChallenge中的得分比GPT-Realtime-1.5高13.8%。

而GPT-Realtime-Translate则聚焦实时语言翻译场景,支持70种输入语言和13种输出语言,可自动识别输入语言,并输出翻译后的语音和文本,适用于跨国会议或实时沟通场景。OpenAI方面表示,传统语音翻译常常要求说话人控制说话节奏,而GPT-Realtime-Translate更接近连续口译的形态。

GPT-Realtime-Whisper则专注于低延迟语音转文本,能在用户说话的同时转录音频。

目前这三款模型已集成至Realtime API供开发者使用,旨在助力构建更自然、更智能、更实时响应的语音体验。

价格方面,GPT-Realtime-2的音频输入定价为每百万Token 32美元,缓存输入每百万Token 0.4美元,音频输出为每百万Token 64美。GPT-Realtime-Translate和GPT-Realtime-Whisper则是按使用时长计费,分别为每分钟0.034美元和0.017美元。

【本文图片来自网络】