OpenAI于周四宣布,其API将新增多项语音智能功能,旨在帮助开发者构建能够与用户进行语音对话、转录及翻译的应用程序。
全新语音模型GPT-Realtime-2
OpenAI推出的全新语音模型GPT-Realtime-2,能够生成逼真的语音模拟效果,与用户进行自然对话。与前代产品GPT-Realtime-1.5不同,该模型搭载了GPT-5级别的推理能力,专为处理用户提出的更复杂请求而设计。
实时翻译功能GPT-Realtime-Translate
与此同时,OpenAI还推出了GPT-Realtime-Translate,顾名思义,该功能旨在提供能够与用户"保持同步"的实时对话翻译服务。该功能支持超过70种输入语言(即可识别理解的语言)以及13种输出语言(即向用户传达内容所使用的语言)。
实时转录功能GPT-Realtime-Whisper
此外,OpenAI还发布了全新转录功能GPT-Realtime-Whisper,为用户提供实时语音转文字能力,可在对话进行的同时即时捕获内容。
OpenAI对此表示:"我们此次推出的这些模型,将实时音频从简单的问答式交互推向了真正能够完成实际工作的语音界面——在对话展开的过程中,系统能够聆听、推理、翻译、转录并采取相应行动。"
应用场景与潜在价值
这些功能的更新将惠及哪些群体?希望提升客服能力的企业是最显而易见的受益方。不过,OpenAI同时指出,这些新功能将在教育、媒体、活动策划、内容创作者平台等众多领域发挥重要作用。
安全机制与滥用防范
尽管这些工具从企业应用角度来看极具价值,但潜在的滥用风险同样不容忽视。对此,OpenAI表示已内置安全防护机制,以防止新功能被用于制造垃圾信息、欺诈或其他形式的网络滥用行为。系统中设有特定触发机制,"一旦检测到对话内容违反有害内容准则,即可立即终止对话"。
定价方式
所有新增语音模型均已纳入OpenAI的Realtime API。其中,Translate和Whisper按分钟计费,而GPT-Realtime-2则按Token消耗量计费。
Q&A
Q1:GPT-Realtime-2与GPT-Realtime-1.5相比有哪些改进?
A:GPT-Realtime-2在前代产品的基础上进行了重大升级,核心改进在于搭载了GPT-5级别的推理能力。这意味着新模型不仅能够生成更逼真的语音模拟效果,还能处理用户提出的更为复杂的请求,而不仅仅局限于简单的问答式交互,真正实现了在对话过程中的聆听、推理与行动能力。
Q2:GPT-Realtime-Translate支持哪些语言?
A:GPT-Realtime-Translate支持超过70种输入语言,即系统可以识别和理解的语言;同时支持13种输出语言,即系统向用户传达内容时所使用的语言。该功能旨在提供与用户对话节奏保持同步的实时翻译服务,适用于教育、媒体、活动策划等多种场景。
Q3:OpenAI如何防止这些语音功能被滥用?
A:OpenAI已在系统中内置了专门的安全防护机制与特定触发条件。一旦系统检测到对话内容违反有害内容准则,即可自动终止对话。这些措施旨在防止相关功能被用于制造垃圾信息、实施欺诈或从事其他形式的网络滥用行为,从而保障功能在合法合规的场景下使用。
热门跟贴