阿里15B模型让照片开口说话：参数砍到1/10，效果却更真了

灰度测试中

2026-04-14 13:39 ·北京

2024年，视频生成赛道挤进几十家公司，参数卷到百亿级是常态。阿里通义实验室扔出一颗炸弹：15B参数，照片+文字直接生成带口型的说话视频，唇音同步误差压到毫秒级。

这个数字有点反常识。同期Runway的Gen-3、Pika的1.5版本，参数规模都在它的6倍以上。更小的模型做更难的事，团队怎么想的？

从"能说话"到"像真人说话"，中间隔着一个声学鸿沟

从"能说话"到"像真人说话"，中间隔着一个声学鸿沟

之前的方案大多是拼接式：先让图片动起来，再后期配音对口型。像给木偶戏配台词，嘴在动，但肌肉和气息是分离的。

阿里这支团队换了个思路——把语音合成（TTS，Text-to-Speech）和视频生成焊成一个模型。输入一段文字，模型同时决定：说什么音、嘴怎么动、脸什么表情、头怎么摆。

关键突破在"隐式对齐"。传统方法用显式的面部关键点（嘴角的坐标）去卡节奏，容易僵硬。新方案让声学特征和视频特征在潜空间里自己找对应关系，像训练同声传译，而不是查字典。

结果是：生成512×512视频，单张A100上推理速度做到实时倍率的0.3倍。换句话说，10秒音频对应生成10秒视频，实际耗时约30秒。

这个速度放在端侧芯片上，已经能跑。

15B参数的底气：不是所有参数都在干活

15B参数的底气：不是所有参数都在干活

模型小不代表能力弱。团队把参数拆成三块：文本理解（3B）、声学建模（4B）、视频解码（8B）。前两块直接复用了通义千问的预训练权重，相当于自带一个读过海量文本和音频的"大脑"。

真正从零训练的是视频解码部分。这里用了一个 trick：先训低分辨率（128×128）打基础，再逐步上采样到512×512。像学画画先练速写再抠细节，省算力，收敛也更稳。

训练数据是另一个门槛。团队没透露具体规模，只说是"百万小时级"的多语言音视频对。重点在清洗——过滤掉背景音乐嘈杂、画面抖动、多说话人重叠的片段。干净数据比海量数据更重要，这是语音合成领域的老经验。

评测指标上，Wav2Lip经典的唇音同步分数（LSE-D）做到6.5以下，这个数字低于大多数开源方案，接近商用闭源产品的水平。用户盲测中，"自然度"评分超过某头部竞品12个百分点。

场景落地：谁需要一张会说话的身份证照片

场景落地：谁需要一张会说话的身份证照片

技术团队列了三个优先场景。第一是数字人客服，解决"真人录视频成本太高、纯AI形象太假"的中间地带。15B模型能在普通GPU服务器上部署，中小企业用得起。

第二是无障碍辅助。视障用户需要"听"视频内容，但现有TTS是机器声。把新闻主播的照片转成说话视频，口型辅助读唇，信息获取效率能提一档。

第三是内容本地化。跨境电商把中文产品介绍视频，直接生成英语、阿拉伯语版本，嘴型跟着变，不用再请外籍演员重拍。

这三个方向有个共同点：不需要电影级画质，但要求"可信"。15B模型的定位很清晰——不做Sora那种"从无到有造世界"，专解决"让现有素材活起来"的刚需。

开源策略：代码已放，但关键数据没给

开源策略：代码已放，但关键数据没给

模型权重和推理代码在魔搭社区（ModelScope）上线，Apache 2.0协议。但训练代码和完整数据集未公开——这是国内大厂的常规操作，怕被拿去炼竞品。

社区反馈分化。开发者点赞推理效率，有人用M2 Ultra MacBook Pro跑出12秒/帧的速度，虽慢但能本地跑。吐槽集中在控制粒度：目前只能调整体语速，没法指定"这句重读、那句停顿"的细粒度指令。

团队回应说下一版会加"风格标签"，比如"新闻播报""朋友闲聊""正式演讲"三种模式。但真正的难题是情感连贯性——真人说话有气息起伏、微表情变化，现在的输出还是偏"稳"，少了点人味。

一个有趣的细节：模型对中文方言的支持意外得好。测试者用粤语、四川话输入，口型匹配度没明显掉。团队解释是训练数据里多语言占比高，加上拼音和注音符号的统一编码，让模型学会了"音素级"的泛化。

这引出一个开放问题：当生成一张会说话的假视频成本降到几毛钱，平台的内容审核系统，准备好识别"照片本人没说过的话"了吗？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴