打开网易新闻 查看精彩图片
OpenAI发布全新语音模型!GPT-Realtime-2 来了
OpenAI近日在API中推出三款全新音频模型,标志着语音应用进入新时代。其中,GPT-Realtime-2作为首款具有GPT-5级推理能力的语音模型,能够处理更复杂的语音请求,引发业界广泛关注。
打开网易新闻 查看精彩图片
核心产品亮点
此次OpenAI推出的三款音频模型各具特色:GPT-Realtime-2具备GPT-5级推理能力,能处理更复杂的请求;GPT-Realtime-Translate是实时翻译模型,支持70+种语言翻译成13种输出语言;而GPT-Realtime-Whisper则提供流式语音转文字服务,延迟极低。
技术突破与应用成效
根据测试数据,Zillow使用新模型后,复杂语音交互成功率提升26个百分点,从69%跃升至95%。此外,新模型支持128K超长上下文(此前为32K),并提供从minimal到xhigh五档可调节的推理强度,为不同场景提供灵活选择。
定价信息
三款新模型的价格分别为:GPT-Realtime-2为32美元/百万音频输入tokens;实时翻译为0.034美元/分钟;实时转录为0.017美元/分钟。这一价格体系旨在推动语音技术在更广泛领域的应用。
行业展望
语音正在成为人与软件交互的新界面。OpenAI不再满足于"你问我答"的语音助手,而是要让AI能边听、边想、边行动。从Zillow的房产助手,到Priceline的旅行管家,再到Deutsche Telekom的跨语言客服,语音版应用可能成为下一个爆款,重塑人机交互的未来格局。
热门跟贴