这是专门做音频编辑的模型

核心能力:
迭代控制情绪、说话风格、副语言

情绪可选几十种,说话风格包括撒娇、老人、小孩、耳语

副语言支持 10 种标签:呼吸、笑声、惊讶、叹气等

支持中文、英文、四川话、粤语

https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

https://github.com/stepfun-ai/Step-Audio-EditX

打开网易新闻 查看精彩图片