2024年,视频生成赛道挤进几十家公司,参数卷到百亿级是常态。阿里通义实验室扔出一颗炸弹:15B参数,照片+文字直接生成带口型的说话视频,唇音同步误差压到毫秒级。

这个数字有点反常识。同期Runway的Gen-3、Pika的1.5版本,参数规模都在它的6倍以上。更小的模型做更难的事,团队怎么想的?

从"能说话"到"像真人说话",中间隔着一个声学鸿沟

从"能说话"到"像真人说话",中间隔着一个声学鸿沟

之前的方案大多是拼接式:先让图片动起来,再后期配音对口型。像给木偶戏配台词,嘴在动,但肌肉和气息是分离的。

阿里这支团队换了个思路——把语音合成(TTS,Text-to-Speech)和视频生成焊成一个模型。输入一段文字,模型同时决定:说什么音、嘴怎么动、脸什么表情、头怎么摆。

关键突破在"隐式对齐"。传统方法用显式的面部关键点(嘴角的坐标)去卡节奏,容易僵硬。新方案让声学特征和视频特征在潜空间里自己找对应关系,像训练同声传译,而不是查字典。

结果是:生成512×512视频,单张A100上推理速度做到实时倍率的0.3倍。换句话说,10秒音频对应生成10秒视频,实际耗时约30秒。

这个速度放在端侧芯片上,已经能跑。

15B参数的底气:不是所有参数都在干活

15B参数的底气:不是所有参数都在干活

模型小不代表能力弱。团队把参数拆成三块:文本理解(3B)、声学建模(4B)、视频解码(8B)。前两块直接复用了通义千问的预训练权重,相当于自带一个读过海量文本和音频的"大脑"。

真正从零训练的是视频解码部分。这里用了一个 trick:先训低分辨率(128×128)打基础,再逐步上采样到512×512。像学画画先练速写再抠细节,省算力,收敛也更稳。

训练数据是另一个门槛。团队没透露具体规模,只说是"百万小时级"的多语言音视频对。重点在清洗——过滤掉背景音乐嘈杂、画面抖动、多说话人重叠的片段。干净数据比海量数据更重要,这是语音合成领域的老经验。

评测指标上,Wav2Lip经典的唇音同步分数(LSE-D)做到6.5以下,这个数字低于大多数开源方案,接近商用闭源产品的水平。用户盲测中,"自然度"评分超过某头部竞品12个百分点。

场景落地:谁需要一张会说话的身份证照片

场景落地:谁需要一张会说话的身份证照片

技术团队列了三个优先场景。第一是数字人客服,解决"真人录视频成本太高、纯AI形象太假"的中间地带。15B模型能在普通GPU服务器上部署,中小企业用得起。

第二是无障碍辅助。视障用户需要"听"视频内容,但现有TTS是机器声。把新闻主播的照片转成说话视频,口型辅助读唇,信息获取效率能提一档。

第三是内容本地化。跨境电商把中文产品介绍视频,直接生成英语、阿拉伯语版本,嘴型跟着变,不用再请外籍演员重拍。

这三个方向有个共同点:不需要电影级画质,但要求"可信"。15B模型的定位很清晰——不做Sora那种"从无到有造世界",专解决"让现有素材活起来"的刚需。

开源策略:代码已放,但关键数据没给

开源策略:代码已放,但关键数据没给

模型权重和推理代码在魔搭社区(ModelScope)上线,Apache 2.0协议。但训练代码和完整数据集未公开——这是国内大厂的常规操作,怕被拿去炼竞品。

社区反馈分化。开发者点赞推理效率,有人用M2 Ultra MacBook Pro跑出12秒/帧的速度,虽慢但能本地跑。吐槽集中在控制粒度:目前只能调整体语速,没法指定"这句重读、那句停顿"的细粒度指令。

团队回应说下一版会加"风格标签",比如"新闻播报""朋友闲聊""正式演讲"三种模式。但真正的难题是情感连贯性——真人说话有气息起伏、微表情变化,现在的输出还是偏"稳",少了点人味。

一个有趣的细节:模型对中文方言的支持意外得好。测试者用粤语、四川话输入,口型匹配度没明显掉。团队解释是训练数据里多语言占比高,加上拼音和注音符号的统一编码,让模型学会了"音素级"的泛化。

这引出一个开放问题:当生成一张会说话的假视频成本降到几毛钱,平台的内容审核系统,准备好识别"照片本人没说过的话"了吗?