OpenAI发布全新语音模型！GPT-Realtime-2 来了|gpt|openai|realtime|人机交互|推理|翻译|语音模型

OpenAI发布全新语音模型！GPT-Realtime-2 来了

OpenAI近日在API中推出三款全新音频模型，标志着语音应用进入新时代。其中，GPT-Realtime-2作为首款具有GPT-5级推理能力的语音模型，能够处理更复杂的语音请求，引发业界广泛关注。

核心产品亮点

此次OpenAI推出的三款音频模型各具特色：GPT-Realtime-2具备GPT-5级推理能力，能处理更复杂的请求；GPT-Realtime-Translate是实时翻译模型，支持70+种语言翻译成13种输出语言；而GPT-Realtime-Whisper则提供流式语音转文字服务，延迟极低。

技术突破与应用成效

根据测试数据，Zillow使用新模型后，复杂语音交互成功率提升26个百分点，从69%跃升至95%。此外，新模型支持128K超长上下文（此前为32K），并提供从minimal到xhigh五档可调节的推理强度，为不同场景提供灵活选择。

定价信息

三款新模型的价格分别为：GPT-Realtime-2为32美元/百万音频输入tokens；实时翻译为0.034美元/分钟；实时转录为0.017美元/分钟。这一价格体系旨在推动语音技术在更广泛领域的应用。

行业展望

语音正在成为人与软件交互的新界面。OpenAI不再满足于"你问我答"的语音助手，而是要让AI能边听、边想、边行动。从Zillow的房产助手，到Priceline的旅行管家，再到Deutsche Telekom的跨语言客服，语音版应用可能成为下一个爆款，重塑人机交互的未来格局。