原标题:阶跃让语音生成更有“人味”:StepAudio 2.5 TTS ,实现语境与细节的全掌控

4月16日,阶跃发布新一代语音生成模型 StepAudio 2.5 TTS。据介绍,该模型围绕全局语境控制、文中语境控制,以及零样本复刻与全音色控制等能力进行了升级,主要面向角色配音、有声内容创作、智能语音交互等场景。

具体来看,StepAudio 2.5 TTS 支持对整段语音的情绪基调、角色状态和场景氛围进行控制,也可对句内及句间的语气、节奏、停顿、强弱、气声等表达细节进行调节。在音色方面,该模型支持 Zero-shot 音色复刻,并可在保留目标音色特征的基础上,对情感、风格和表达方式进行调整。

StepAudio 2.5 TTS 支持利用自然语言来进行合成控制。相较于传统标签或短语组合式控制,用户可直接通过自然语言描述所需的声音效果,以完成生成语音的精准细节控制。从行业发展来看,随着语音生成技术向更多应用场景渗透,相关产品一方面需要进一步降低使用门槛,另一方面也需要提升生成内容的自然度、丰富度和表现力。在这一趋势下,自然语言控制正成为兼顾易用性与可表达性的一种重要方向。

目前,StepAudio 2.5 TTS 已全量上线「阶跃星辰开放平台」和 Step Plan。