打开网易新闻 查看精彩图片

公司情报专家《财经涂鸦》获悉,6月3日,京东推出JoyAI-Echo长音视频生成框架解决行业头疼已久的“长视频生成三大难题”—— 角色易崩、声音乱变、生成缓慢,同时实现“对话式编辑”功能,不用再为改一个镜头重跑整条视频。

JoyAI-Echo的发布,标志着京东在长视频生成领域进入全球第一梯队。该框架具备四项技术创新。

首先,最关键的突破是跨模态音视频记忆库,令角色不“变脸”。框架内置了一个专门的记忆库,能在多镜头生成过程中,持续保存并调用角色的外观特征和说话人音色信息。

实测结果显示,长达5分钟的视频里,角色身份、视觉形象和声音音色都能保持高度一致,再也不会出现“同一个人演着演着变成另一个人”的尴尬情况。

其次,记忆驱动后训练,令速度直接提升7.5 倍团队创新性地提出记忆驱动后训练流程,结合SFT、跨模态RLHF和 Distribution Matching Distillation(DMD)技术,不仅大幅提升了生成质量,更实现了显著的推理加速。

其中,仅DMD一项技术就带来了约7.5倍的速度提升,让长视频生成从“等半天”变成“秒出片”。

第三,加入“导演助理”Director Agent。区别于传统的“输入提示词,一次性出结果”, JoyAI-Echo通过自然语言接收需求后,会自动拆分成剧本、角色、场景和镜头;哪里不满意,直接用对话的方式告诉它修改,只重新生成有问题的局部镜头,整条视频不用重来。

整个工作流包含规划、生成、评审和局部修订四个环节,让长视频创作从“静态生成”变成了“动态协作”。

最后,轻量化实时超分,高清输出不卡顿为了满足专业内容生产的需求,JoyAI-Echo还配套了专门的实时超分模块,支持两档分辨率提升,通过单步超分就能生成高分辨率视频和精细化音频,即使在流式延迟的约束下,也能保持稳定的高清表现。

为客观评估JoyAI-Echo性能,研究团队基于100个故事、3000个镜头构建了专门的长音视频生成评测集,从多个维度进行了全面测试。

结果显示,JoyAI-Echo在跨镜头一致性、视频质量、文本一致性和语音内容准确率等所有核心指标上都取得了领先表现,其中语音内容准确率更是高达 0.8646,大幅领先行业其它同类模型。

在用户偏好调研中,JoyAI-Echo的优势更加明显。用户认为JoyAI-Echo音频质量偏好的比例为81.7%,提示词遵循偏好为80.6%,视觉美学偏好为63.6%,IP一致性偏好为59.4%。

未来,JoyAI-Echo或将为众多行业带来全新的可能性,例如虚拟故事创作和动漫制作、数字人内容生产和直播、品牌营销视频快速迭代、影视前期预演和分镜制作、互动教育课件生成、游戏剧情和过场动画制作等。

目前,JoyAI-Echo的代码与权重已全部开源。

作者:苏打

编辑:tuya

出品:财经涂鸦(ID:caijingtuya)