品玩1月20日讯,据 marktechpost 报道,NVIDIA研究院近日推出PersonaPlex-7B-v1,一款基于Moshi架构的70亿参数全双工语音到语音对话模型。该模型摒弃传统ASR→LLM→TTS级联流程,采用统一Transformer架构,在单一网络中同步处理语音理解与生成,支持自然打断、重叠语音、快速轮转及上下文感知的反馈词(backchannels)。

PersonaPlex通过混合提示机制实现精准角色控制:音频提示定义音色与韵律,文本提示设定角色身份与业务场景,系统提示可包含名称、机构等结构化信息。模型以Helium为语言主干,训练数据融合1,217小时真实Fisher对话与2,250小时合成客服/助教场景数据。

在FullDuplexBench与ServiceDuplexBench评测中,其轮转接管率达90.8%,中断响应延迟低至240毫秒,显著优于现有开源及商用系统。代码已按MIT协议开源,模型权重遵循NVIDIA开放模型许可。

打开网易新闻 查看精彩图片