NVIDIA发布全双工语音对话模型PersonaPlex-7B-v1

硅星Breaknews

2026-01-20 10:44 ·上海 ·优质互联网领域创作者

品玩1月20日讯，据 marktechpost 报道，NVIDIA研究院近日推出PersonaPlex-7B-v1，一款基于Moshi架构的70亿参数全双工语音到语音对话模型。该模型摒弃传统ASR→LLM→TTS级联流程，采用统一Transformer架构，在单一网络中同步处理语音理解与生成，支持自然打断、重叠语音、快速轮转及上下文感知的反馈词（backchannels）。

PersonaPlex通过混合提示机制实现精准角色控制：音频提示定义音色与韵律，文本提示设定角色身份与业务场景，系统提示可包含名称、机构等结构化信息。模型以Helium为语言主干，训练数据融合1,217小时真实Fisher对话与2,250小时合成客服/助教场景数据。

在FullDuplexBench与ServiceDuplexBench评测中，其轮转接管率达90.8%，中断响应延迟低至240毫秒，显著优于现有开源及商用系统。代码已按MIT协议开源，模型权重遵循NVIDIA开放模型许可。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴