语音交互的"卡顿感"终于要结束了。OpenAI最新发布的三款实时语音模型,把延迟、打断、多语言三大痛点一次性打包解决。
核心看点是GPT-Realtime-2。这是首款具备GPT-5级推理能力的语音模型——注意,不是文字版GPT-5,是语音模型直接拥有同等推理水平。它能在对话流中实时思考、调用工具、处理用户的打断和纠正,开发者终于能做出真正"听得懂人话"的语音助手。
打开网易新闻 查看精彩图片
定价策略很清晰:音频输入每百万Token 32美元(约218元人民币),输出翻倍到64美元,缓存输入几乎免费——0.4美元。这个价差设计明显在鼓励多轮对话场景。
另外两款分工明确。GPT-Realtime-Translate支持70种输入语言转13种输出语言,翻译速度跟说话同步,跨国会议不用等;GPT-Realtime-Whisper专攻低延迟流式转录,边说边出字幕,按分钟计费0.017美元。
翻译和转录走分钟计费,推理模型走Token计费——OpenAI用两套计价体系区分了"被动工具"和"主动智能"的边界。开发者按需调用,Realtime API成了语音应用的底层基础设施。
热门跟贴