字节 Seedance 1.5 Pro 藏师傅实测：可以说方言的音画同出视频模型|seedance|方言|镜头|麦克风

字节在前几天发布了 Seedance 1.5 Pro 视频生成模型。

重点是支持音画同出了，而且在本地化方面下了很多的功夫。

先看一下藏师傅的测试视频混剪：

结合官方介绍和我的测试结果说一下这次升级的主要内容：

视频支持音画同步生成，支持多种主流方言，并且显著提升口型、语调对齐能力，方言效果很好；
增强语义理解，模型可以比较好的解析叙事语境，声音与画面同步情绪控制和专业的表演能力提升非常大；
精准且丰富的镜头控制，自主机位调度，长镜头、推轨变焦、希区柯克等都没问题；
支持首尾帧生成视频，最长可单次生成 12 秒视频，还有 5 秒和 10 秒可选。

令人惊喜且独特的方言效果

音画同出可以直出方言这个太惊喜了，在我们国内的影视作品里面方言内容一直是为角色赋予真实性和地方特色非常好用的一个手段，这下一些影视方面的应用要拓展了。

提示词：

镜头怼着一个脸庞黝黑的老陕西人，他蹲在板凳上，手里捧着个脸盆大的青花瓷海碗，里面的面条被红彤彤的油泼辣子裹得严严实实。他左手捏着一瓣蒜，咔嚓咬掉半截，右手猛地往嘴里猛吃了一大口面，发出震天响的吸溜声。抬起头时嘴边全是红油，他冲着镜头一瞪眼，满脸陶醉地用陕西话吼道：“额给人说！吃面不吃蒜，味道少一半！这一口面，简直美滴很！”说完抄起旁边的汽水猛灌一口，冲着后厨喊：“伙计！面汤还有么？今儿这顿饭，硬是聊咋咧！”

首先我找了一个可能没那么方言的方言陕西话，很多人说普通话的人可能听得懂，但又有一些读音很独特的词。

这种一般是比较难的，因为素材跟普通话太接近了，而且很多词不好标注，只有真的下功夫才能搞好。

同时场景选了我每天看的陕西面食吃播场景，文生视频，看一下整个画面和音频的融合程度，吃东西的时候也会影响说话，可以考验模型对于场景的判断。

结果相当惊喜，“聊咋咧”和“美滴很”这两个比较难的词都说出来了，而且音调也确实是陕西话的音调。

意外的是提示词遵循比较好，知道先说一句然后喝饮料再说一句。

边喝边说的时候也没有完全把瓶子放在嘴里，这时候就不能说话了，它知道说的时候拿开瓶子，然后再喝一口再说，非常真实。

提示词：

街边一棵老树下的麻将桌，旁边停着电瓶车，背景是嘈杂的市井声。树荫下的老茶馆门口，麻将桌旁围得水泄不通，一位光膀子的大爷急得把蒲扇拍得震天响，冲着对家用四川话吼道：“哎呀，张大姐，搞快点嘛，等到花儿都谢咯！”对面烫着卷发的胖嬢嬢丝毫不慌，猛地把一张牌“啪”地拍在桌上，中气十足地用四川话怼回去：“催命哇？慌啥子慌……二筒，我看你吃得消不！”旁边的小伙子咬了一口红糖锅盔，探出头来用四川话起哄：“嚯！这手牌，硬是巴适得板哦！”

然后是四川方言，我选了一个非常有挑战性的场景，在提示词里面加入了三个年龄不同、性别不同、打扮相差也很大的角色，说着不同的话。

这个提示词说实话难度有点大了，但 Seedance 1.5 Pro 确实给了我很大的惊喜，每次抽卡都能比较好的遵循提示词完成任务。

每个人都在用自己角色应该有的音色和音调在说话，而且不会串，“巴适得板”这种四川话独有的词也说的不错。

而且你发现没有，我是没有指定镜头运动方式的，它自己会将镜头通过类似摇臂旋转的方式对准正在说话的人，而且还有一点类似手持设备的晃动，镜头为止也在麻将桌没有露面的那个角色那里，看起来就像那个人手持拍摄一样。

背景虚化之后的其他人也都在运动和做自己的事情，加上非常有市井气息的对话，这 12 秒的视频变得异常的真实。

提示词：

一家贴满绿色马赛克瓷砖的老店。一个穿着白大褂、夹着托盘的中年男服务员在卡座间穿梭。他猛地停在一张桌子前，把一杯茶哒地一声重重顿在玻璃桌面上，原子笔在点菜本上敲得飞快。服务员眉毛一皱，语速极快的用粤语说：“喂，靓仔！写嘢未啊？谂好没？后面仲有大把人等位啵！手脚快啲啦！”坐在卡座里的戴眼镜的年轻人正看着手机，被吓了一跳，赶紧合上油腻腻的菜单。戴眼镜的年轻人慌忙抬头用粤语说：“啊……唔该！要个干炒牛河，再来杯冻柠茶，少甜走冰！”

最后是粤语，这里也选了一个相当有市井生活气息的餐馆场景，依然文生视频，两人对话这次两个都是男性看一下说话会不会串。

生成出来的时候这个运镜真的顶，直接非常顺滑的从服务员的背面切换到正面，而且说话的时候很自然的越过服务员打到男生的脸上。

提示词遵循也非常好，每个提示词中的细节都兼顾到了，包括贴瓷砖、服务员服、男生的眼镜和手机，还有所有动作台词的时间顺序，以往的模型总会漏一点细节，这次几乎每次都很完美，无论是画面、时序还是对话内容。

对话里面以我这个不太懂粤语的人听，还挺是那个味的，粤语特有的发音也都可以说，也欢迎“粤语警察”提意见。

之所以将这一块放在最前面，首先是我前面说的方言对于影视剧中塑造角色形象塑造非常重要，另外一个原因是即使海外的模型如何厉害，关于我们本土文化的内容和细节还是需要有国产模型来填补，也只能由国产模型来做。

很高兴字节无论在图像和视频领域都很重视这些。

非人场景音画同出测试

现在各种 AI 影视爆款里面涉及到音画同出的除了各种真实人像之外，宠物 AI 视频的流量也占了半壁江山，所以这里也需要考察一下宠物的声音和唇形同步。

提示词：

镜头怼脸拍，柔光灯下，一只大脸盘子的橘猫正襟危坐，胸口别着个只有指甲盖大小的迷你麦克风。它头顶戴着粉色蝴蝶结，一脸严肃地盯着面前还在冒热气的生煎。它先是凑近了嗅一嗅，胡须随着呼吸高频颤动，然后歪着头，拿起饺子“啊呜”一口咬住酥脆的饺子皮。麦克风里瞬间传来清晰放大的“咔滋咔滋”脆响，紧接着是湿漉漉的“吧唧吧唧”咀嚼音。吃完一口，它眯起眼睛，紧接着它伸出毛茸茸的“白手套”爪子，把旁边的牛奶杯往怀里一扒拉，眼神霸气地盯着镜头，说：“喵！嗷呜！”

首先是小猫吃播，吃播对于音效和表情要求很高，吃东西必须得是跟视频材质相同的视频，这里小猫吃煎饺咔滋咔滋的声音就让人听的非常有食欲。

而且猫咪在咀嚼的时候很好的表现了出了非常拟人的为食物陶醉的表情，但是有没有恐怖谷的问题，相当不错。

提示词：

一只坐在温暖昏黄木制猫窝里的布偶猫，它拥有一双像蓝宝石一样无辜的大眼睛，身上穿着一件精致的粉色针织小开衫，显得软萌又富贵。猫咪面前的软垫上放着一个蓝色的婴儿安抚奶嘴，它先是用毛茸茸的爪子轻轻拨弄了一下奶嘴，然后带着一种委屈又软糯的中文小奶音自言自语道：“这是妈妈给我买的‘封印神器’……她说我半夜跑酷动静像拆家，非要我叼着这个才能睡觉。”说完，猫咪顺从地低头把奶嘴含进嘴里，腮帮子鼓鼓地动了两下，眼神瞬间变得迷离困倦，含糊不清地嘟囔出最后一句：“唔……别说……含着这个……还真有点……困了……”随后慢慢闭上眼睛，画面在它微微点头打瞌睡的温馨瞬间结束。

这里让猫咪说人话，除了嘴型以外还有解刨结构的考验，很多视频动物说人话的时候嘴里的舌头和牙齿就会变得像人，这里 Seedance 1.5 Pro 就很好，还是猫咪本身的结构。

说话的时候我们指定了小奶音来表现猫咪的可爱，模型输出的也是类似孩子的声音，最后我们还用...来表示说话的节奏和表现困意，生成的时候也按照对应的节奏放慢了说话速度，相当猛了。

真实且动人的情绪表现

既然说到了音画同出的能力，那么模型的表演能力和情绪表现也是非常重要的部分，很多时候情绪或者表演能力跟音频的关系相当大，只有画面的时候表现力是不够的。

提示词：

在一个充满尘埃与铁锈味的废土掩体暗室中，单顶光打在一位面容枯槁的幸存者脸上，使他的眼窝深陷成两个黑洞。镜头采用极端面部特写，他不敢直视镜头，眼神游离且充满恐惧。他嘴唇干裂起皮，先是艰难地吞咽了一下口水，喉结明显滚动，随后用颤抖且嘶哑的气声缓缓吐出台词：“这一单我做完了……”，紧接着他猛地抬起头直视镜头，眼眶瞬间发红含泪，面部肌肉因极度紧绷而抽搐，用几乎崩溃的哭腔急促地喊出：“求求你，把药给我！” 说话时，这一瞬间的爆发导致他嘴角流出一丝浑浊的口水，下巴不受控制地剧烈抖动，整个人呈现出一种被逼至绝境的破碎感。

这里主要表现的是恐惧压抑和恳求的复杂情绪，眼睛这里很传神，将恐惧害怕同时又由于的情绪表现的很好。

第一句话的时候先是声音很低的，这个时候仿佛还没有下定决心，等到第二句话的时候就表现出那种反正说都说了胆子都大了，同时声音也变大了。

在第二句话的时候画面的变化也咋同步发生，眼神明显坚定了很多。

在大口呼吸的时候脖子部分的运动以及嘴上的口水都非常好的表现了出来，进一步增加了真实感。

提示词：

在赛博朋克风格的维修车间冷光下，年轻的机械师正被一台高大的废旧机器人逼在墙角。起初，机械师处于极度的心理防御状态，他紧咬着后槽牙，咬肌明显鼓起，眼神充满倔强与痛苦，一边用力推搡机器人冰冷的手臂，一边从牙缝里狠狠地挤出前半句台词：“I can't fix it anymore...”。随着机器人并没有放手而是继续拥抱他，机械师的心理防线在这一秒崩塌，他原本紧绷的嘴角瞬间向下垮掉，整张脸皱缩在一起，发出一声窒息般的抽泣，随后把头深深埋进机器人的线缆胸膛中，含糊不清地哭喊出后半句：“I can't fix anything anymore.” 身体随之从僵硬对抗转为瘫软下滑，展现出彻底的情感释放。

这里用了英文和风格化的画风顺便测试一下在 2D 风格化画风下的唇形同步以及面部情绪表现。

没想到在侧脸加 2D 的情况下模型的唇形同步、表情以及情绪变化还能表现的这么好，而且也没有出现向3D 转换的倾向相当稳定。

最后的啜泣声音与说话的声音融合的也非常好，而且啜泣的时候面部的表现也在跟音频同步，看起来浑然天成，碰到机器人的时候也有跟金属碰撞的声音，细节表现相当不错了。

精准且丰富的镜头控制

这次更新的模型对于复杂运镜控制的表现也好了很多，可能你通过前面的一些案例也可以看出来，我们再来点难得。

提示词：

在一个深邃的欧式古堡长廊中，镜头聚焦在走廊尽头一位惊恐的维多利亚时代女性面部，随着时间推移，她脸部在画面中的比例完全保持静止不变，但她身后的长廊背景却产生强烈的空间压缩感，远处的门窗仿佛瞬间拉近到了她脑后，走廊两侧的雕像和烛台以一种诡异的视觉错觉在极短时间内改变了排列密度，制造出强烈的眩晕与压迫感。

首先是一个大家熟知的高级运镜技巧希区柯克变焦，他的原理是摄像机向后拉的同时变焦镜头向前推，使主体大小保持不变，但背景透视发生剧烈压缩或扩张，但一般由于硬件限制这个变焦的时间和幅度是有局限的。

我们这里搞的非常的离谱了，一个连续 12 秒而且速度非常快的希区柯克变焦，现实还是很难搞的，没想到它居然搞定了，后面的城堡背景变化相当连贯。

人物的表情也会有微妙的变化，同时音效也会跟随变焦的速度与主角呼吸的节奏变化，对于人物紧张的情绪渲染的异常的到位，这个太猛了。

提示词：

头处于一个中景距离，平稳地跟随一位身穿深蓝色工装外套、背部微驼的中年男性仓库拣货员。他正双手推着一辆载满棕色瓦楞纸箱的重型金属平板手推车，在巨大的物流仓库水泥地面上中速前行。首先，他穿过一条光线略显昏暗、两侧是高耸入云的重型货架的长廊，货架上堆满了各种贴着标签的货物托盘。他向左拐了一个大弯，进入一个更加宽敞、光线明亮的自动化分拣区域。进入新区后，远处有几辆叉车在缓慢移动。他继续推车前行了一段，此时侧面有一扇巨大的工业卷帘门半开着，下午的自然阳光斜射进来。直到他停在一台打包机前，他松开推车把手，直起腰擦了一下额头的汗，镜头缓缓推进到他的侧脸和推车上静止的箱子细节。

这是一个长镜头测试，对于每个区域的规定也很详细，既考验模型的长镜头跟随调度能力，也考验模型的物理一致性。

可以看到每个部分中提示词要求的内容都有呈现，同时在人物遮挡前和遮挡后都保持了很好的一致性。

运镜部分非常稳定，而且在比较难得转弯部分以及最后人物停止之后擦汗的部分都严格遵循了提示词的要求，尤其最后镜头变焦到人脸的时候相当顺滑。

结尾

整个测试过程中也发现了一些小问题，比如方言这里肯定没办法覆盖全部的方言种类，一些跟普通话过于接近的方言会有混淆问题。在音频上跨分镜如何解决音色的一致性也是一个需要处理和解决的问题，不然长视频可能有些麻烦。

这次值得注意的是，除了情绪部分的几个视频外，其他的所有视频我都是通过纯文生视频完成的。

一直以来很多模型都不太重视文生视频的质量，在色彩表现、物品材质上都有很多问题。

Seedance 一直以来的文生视频表现都非常好，这次音频生成支持后整个视频的一致性和真实性更是高了非常多，也更容易发挥模型的能力，经常有比较惊艳的结果。

对于视频 Agent 产品来说，原生的文生视频表现加上音频能力，在融合度和真实性上，肯定要比图生要更好，而且也更便于进行上下文管理和一致性保持，以前的图生是模型发展阶段迫不得已的选择。

我一直坚持文生视频和视频编辑才是未来，图生是过渡，这次 Seedance 1.5 Pro 的在纯文生音画融合度以及纯文生视频偶尔表现出的自主智能运镜等表现都让我坚定了这个判断。

今天，火山引擎正式发布豆包视频生成模型Seedance 1.5 pro，即日起，个人用户可在即梦AI、豆包APP、火山方舟体验中心体验；企业用户自12月23日起可在火山引擎使用该模型API。体验地址：exp.volcengine.com/ark/vision?launch=seedance

提示词的理解、表演能力提升、音画同出、文生视频的高质量都大幅降低了视频制作的复杂性，视频 Agent 产品的上下文长度也会随着降低。