国家知识产权局信息显示,北京字跳网络技术有限公司、脸萌有限公司、清华大学申请一项名为“用于音频对话的方法、装置、设备和存储介质”的专利,公开号CN122050357A,申请日期为2024年11月。
专利摘要显示,本公开的实施例提供了用于音频对话的方法、装置、设备、存储介质和程序产品。该方法包括:利用流式音频编码器,将从环境中采集到的第一音频流编码成音频特征序列;利用经训练的机器学习模型,基于系统提示词和音频特征序列来生成文本单元序列,以作为对第一音频流的响应;以及响应于文本单元序列满足音频合成条件,利用流式音频合成器从文本单元序列生成第二音频流,以用于播放。以此方式,可以全双工、流式地实现音频对话,并且在音频生成过程中无需引入离散的音频编码。这可以提高音频对话的性能和效率。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:情报员
热门跟贴