来源:环球网
【环球网科技综合报道】3月6日消息,据The Information报道,人工智能企业OpenAI正研发一款名为BiDi的双向语音模型,旨在优化用户与ChatGPT的语音交互体验,让人机对话更贴近自然的人际沟通模式,即便对话过程中被打断,模型也能实时调整回应内容。
当前ChatGPT的高级语音模式采用回合式对话机制,存在交互体验上的局限。用户需完整表达后,模型才会处理语音并生成回答;若在模型发言过程中,用户做出“okay”“mm-hm”等回应或进行打断,系统通常会直接停止发言,无法像正常人际对话那样继续衔接。
此次研发的BiDi双向语音模型,核心优势在于能够持续处理说话者的语音输入。与现有语音模型一旦开始生成回答,输出内容便基本固定、无法根据新输入调整的特点不同,BiDi模型在被用户打断时,可立即根据新的语音信息调整回应内容,实现更流畅的实时交互。
不过该技术目前仍处于开发阶段,尚未成熟。据了解项目情况的人士透露,BiDi原型模型在持续对话数分钟后易出现故障,还可能发出不自然的声音。原本研发团队计划在今年第一季度推出该模型,目前发布时间已大概率推迟至第二季度甚至更晚。
OpenAI方面认为,若语音模型的性能能逐步接近文本模型,人工智能的应用范围将得到进一步拓展。原因在于,语音交流是大多数人更习惯的交互方式,相较于文字输入,语音交互能降低使用门槛,让AI触达更多用户。
从应用场景来看,BiDi双向语音模型的实用价值颇具想象空间,在客服领域的表现尤为值得期待。例如顾客与零售商的AI客服通话时,若在对话中临时改变需求,将退货改为换货,BiDi模型可让AI客服顺畅调整对话逻辑,避免出现突然停止或回应混乱的情况,提升服务效率与体验。此外,该模型在调用外部工具和应用方面也具备更高的灵活性。
据悉,OpenAI此前已透露相关规划,计划为未来一款主打语音交互的AI设备优化语音模型,还考虑开发智能音箱类产品,用户通过语音指令,即可实现查看邮件、预订服务等操作,而此次BiDi双向语音模型的研发,或将为相关产品的落地提供技术支撑。(纯钧)
热门跟贴