对话更 “懂人” ，OpenAI 双向语音模型正在研发中|openai|人工智能|人机对话|语音模型

对话更 “懂人” ，OpenAI 双向语音模型正在研发中

环球网资讯

2026-03-06 11:33 ·北京 ·环球网官方网易号

来源：环球网

【环球网科技综合报道】3月6日消息，据The Information报道，人工智能企业OpenAI正研发一款名为BiDi的双向语音模型，旨在优化用户与ChatGPT的语音交互体验，让人机对话更贴近自然的人际沟通模式，即便对话过程中被打断，模型也能实时调整回应内容。

当前ChatGPT的高级语音模式采用回合式对话机制，存在交互体验上的局限。用户需完整表达后，模型才会处理语音并生成回答；若在模型发言过程中，用户做出“okay”“mm-hm”等回应或进行打断，系统通常会直接停止发言，无法像正常人际对话那样继续衔接。

此次研发的BiDi双向语音模型，核心优势在于能够持续处理说话者的语音输入。与现有语音模型一旦开始生成回答，输出内容便基本固定、无法根据新输入调整的特点不同，BiDi模型在被用户打断时，可立即根据新的语音信息调整回应内容，实现更流畅的实时交互。

不过该技术目前仍处于开发阶段，尚未成熟。据了解项目情况的人士透露，BiDi原型模型在持续对话数分钟后易出现故障，还可能发出不自然的声音。原本研发团队计划在今年第一季度推出该模型，目前发布时间已大概率推迟至第二季度甚至更晚。

OpenAI方面认为，若语音模型的性能能逐步接近文本模型，人工智能的应用范围将得到进一步拓展。原因在于，语音交流是大多数人更习惯的交互方式，相较于文字输入，语音交互能降低使用门槛，让AI触达更多用户。

从应用场景来看，BiDi双向语音模型的实用价值颇具想象空间，在客服领域的表现尤为值得期待。例如顾客与零售商的AI客服通话时，若在对话中临时改变需求，将退货改为换货，BiDi模型可让AI客服顺畅调整对话逻辑，避免出现突然停止或回应混乱的情况，提升服务效率与体验。此外，该模型在调用外部工具和应用方面也具备更高的灵活性。

据悉，OpenAI此前已透露相关规划，计划为未来一款主打语音交互的AI设备优化语音模型，还考虑开发智能音箱类产品，用户通过语音指令，即可实现查看邮件、预订服务等操作，而此次BiDi双向语音模型的研发，或将为相关产品的落地提供技术支撑。（纯钧）