智东西2月11日报道,今天,陆续有不少用户发现,字节跳动已在旗下AI助手App豆包内开启视频生成模型Seedance 2.0的灰度测试。
用户只需打开豆包,点击下方的创作按钮,进入视频生成功能后,已被纳入灰度测试的用户就可看到模型2.0(Seedance 2.0)的选项。
自2月7日在即梦等平台灰度上线以来,Seedance 2.0就让整个AI视频圈炸了锅。
《黑神话·悟空》背后的游戏科学创始人兼CEO、制作人冯骥在体验后Seedance2.0后,盛赞该模型为“地表最强”,并判断道:“AIGC的童年时代,结束了。”a16z的合伙人Justine Moore则感叹道:“AI视频模型的图灵测试已经被攻克了。”一位学习了7年数字电影制作的网友在体验后说,这个模型让他感到害怕,他所学习到的90%技能,Seedance2.0都能实现。
过去,往往是国内用户费尽心思去体验国外的AI工具,而这次,Seedance 2.0作反而成为海外网友“争相体验”的对象。
由于该模型在部分国家和地区尚未开放,不少海外网友在社交平台频频“催上线”、询问开放时间;还有人专门制作了详细教程,分享如何通过中国手机号完成注册,并一步步体验Seedance 2.0的完整流程。
Seedance 2.0上线豆包App后,智东西也第一时间进行了体验。我们尝试了从日常场景到超现实场景的多种创作,发现模型对复杂提示词的理解能力明显增强,同时音画同步和视觉效果的呈现也更自然,较字节的上一代视频生成模型,实现了可感知的大幅提升。
一、实测长提示词指令遵循,高难度乐器演奏、超现实场景也能还原
据字节官方技术文档,Seedance 2.0在物理规律、动作表现、指令遵循等领域均有明显提升,还支持了图像、视频、音频、文本四种模态输入,这意味着用户能以更多的方式控制模型的输出,满足创作需求。
不过,目前在豆包App中,Seedance 2.0暂时仅支持文本和图像两个模态的输入。每个用户每天可以获得200视频生成积分,而用Seedance 2.0生成一个10秒的视频,需要耗费20积分,也就是说每个人可以体验10次。
我们的首个测试案例是长文本提示词输入,下方提示词精确定义了画面里的主体、动作以及音效,看看Seedance 2.0能否准确还原。
提示词:突然,前方街角的阴影里,一只漆黑的猫像一道闪电般窜出,身形轻盈而敏捷。女孩被吓得微微后退一步,雨水顺着帽沿落在她的肩膀上,溅起一圈细小水花。镜头侧面缓缓跟随,捕捉她的手伸出,试图轻轻触碰黑猫。猫的耳朵微微竖起,眼睛在昏黄路灯下闪着绿光,它轻巧地一跃,仿佛带着夜色消失在湿漉漉的街道深处。 女孩愣了一秒,低头看着自己微湿的手指,嘴角悄悄上扬,露出一丝忍俊不禁的笑意。她轻轻摇摇头,雨伞下的脸被灯光映出温暖的光晕。随后,她重新调整步伐,撑开雨伞,加快了前行的脚步,雨水拍打伞面的声音伴随着她鞋底溅起的水花,融入夜晚街道的喧嚣中。 音效提示词:猫叫声轻响,随即消失;雨点拍打伞面滴答作响;远处偶尔传来汽车轰鸣声和脚步声,街道弥漫湿润气息。
在大约等待了30秒后,豆包向我们发送了生成结果。提示词中描述的几个关键动作都在视频中得到了呈现,同时,画面中人物的衣着、样貌在不同的镜头中都保持了一致,视觉效果比较稳定。
音效方面,Seedance 2.0的配音与画面内容调性一致,而像是猫叫声、脚步声这些声音则与画面内容匹配,基本实现了音画同步。
美中不足的是,对于“雨水顺着帽沿落在她的肩膀上”这部分的描述,Seedance 2.0未能还原。平心而论,液体的渲染对大多数视觉生成模型来说还是较为困难的。
紧接着,我们又尝试了一个涉及音画同步的高难度场景:乐器演奏。此前,在我们的体验中,大部分视频模型都无法准确地将音乐与画面的演奏动作同步,要么节奏对不上,要么手指动作与音符不符,要么整体演奏显得生硬、不自然。
Seedance 2.0拿到的提示词如下:
街头音乐表演,鼓手敲击节奏、吉他手弹奏旋律,观众随节奏轻拍手,音乐是拉美风格。
Seedance 2.0的生成结果可以说是较为惊艳的,在音乐风格上,它满足了我们的“拉美风格”限定词,背景中的人物、建筑风格也符合拉美风的要求。
乐器演奏方面,鼓手的桶鼓轮奏动作与音乐的鼓点,基本达到了8成的契合度,这要比我们之前测试的字节视频生成模型好得多。
而在吉他手的演奏中,画面中手部按压的和弦和视频里模型生成的音乐也是基本契合的,左右手的手法都是自然、连贯且细节丰富,琴弦拨动与音符节奏高度对应。
细看还可以注意到,背景中观众拍手的动作和视频里的声音是精准卡点的。
我们的最后一个纯文本提示词考察的是一个超现实场景,这种场景在模型训练数据里可能分布较少,考察的是对罕见视觉元素、超现实组合和非日常场景的生成能力。
画面开场是一座夜晚的城市,全景俯拍,城市灯光闪烁,街道像河流般流动。随后,镜头慢慢拉近,出现几栋建筑缓缓离地漂浮,建筑底部闪烁着微光能量。空中漂浮的汽车像鱼群般游动,偶尔从建筑间穿梭而过。主角是一位身穿银色风衣的少年,脚下踩着悬浮板,从高楼之间穿行而过。 镜头切换至近景,少年伸手触碰漂浮的建筑,触碰瞬间建筑表面出现液态光纹,建筑缓缓旋转、折叠,随后化作光粒飞向夜空。背景出现巨大月亮,月亮上投射出城市倒影,光线折射在漂浮建筑和人物身上。
Seedance 2.0遵循了我们的镜头提示词“全景俯拍”,而提示词中相对少见的“悬浮板”、“漂浮汽车”这些元素,模型也能做到合理、真实地呈现。
而在最后一个动作中,像是“液态光纹”、“化作光粒飞向夜空”这些复杂的画面要求,Seedance 2.0也能准确还原。
二、图生视频出现物理Bug,结合豆包模板后玩法更多
在日常使用中,还有一大需求就是输入图像,生成视频。相比纯文本生成,图生视频往往对模型的结构理解能力、主体一致性保持能力以及动作补全能力提出更高要求。
模型不仅要“看懂”图像中的人物、环境和构图关系,还要在此基础上合理延展动作与镜头。同时,如何在生成过程中保持人物样貌、服饰细节与整体风格不发生偏移,也是衡量图生视频能力的重要标准。
我们首先上传了一个沙滩场景和一位小男孩的肖像,要求Seedance 2.0生成图中男孩在沙滩上奔跑的画面。上传图片作为输入后,可以明显感觉到模型的生成速度变慢了一些。
其实,这轮对话中Seedance 2.0的生成效果并没有此前那么超乎预期。在没有明确要求的情况下,模型生成的画面是慢动作的,这是不少AI视频生成模型的常见问题。
从画面内容来看,我们上传的沙滩、男孩的特征基本都得到了保留,不过从物理准确性上来看,男孩在跑过沙滩的时候并没有留下脚印,有点穿帮了。
并且,在上传图片后,豆包会提示无法自定义模型比例,它将根据参考图自行选择比例。在这次案例中,它默认选择了男孩肖像图的竖版比例,其实并不符合我们的需求。
于是,我们更换了提示词的顺序,把沙滩这一背景前置了。不过,最后模型还是选择了竖版的视频比例,而且,第二次生成的画面出现了更为严重的物理规律Bug:男孩踢球的力道明显不足以让足球在天空中飞那么久。
上线豆包后,Seedance 2.0还可以与豆包原有的多种视频生成玩法结合,提供新的体验。
比如,我们试着体验了由Seedance 2.0驱动的AI采访玩法,这一玩法支持上传人物图像,或者选择已经保存好的“分身”出镜。
一开始,我们想试着让Seedance 2.0生成马斯克与阿尔特曼这两位AI圈顶流争论的画面,但是或许是由于触及模型的安全机制,这类需求被模型直接拒绝了。
于是,我们换了一位相对没有那么知名的人物,上传了其照片。拿到生成结果后,可以明显感觉到这一模板是偏恶搞向的,画面左侧的受访者突然蹲下,头部被夸张地“拉长”,随后又像弹簧一样猛地“弹”回原位。这样的变形效果虽然充满戏剧性,但突兀而荒诞,观感上多少有些“掉San值”。
之后,我们又上传了扎克伯格的画面,并采用官方的全息投影模板。画面中,扎克伯格带上了一个类似苹果Vision Pro的VR头显,随后整个人物逐渐转为半透明质感,背景中浮现出粒子光效,整体呈现出明显的“全息投影”视觉风格。
我们又尝试了另一个模板“游戏追逐”,这个模板会生成一则猛兽追逐画面中主角的视频,我们上传了一只小狗的画面作为参考图。
不过,可能由于这一模板是针对人类的,对动物作为主角的画面并不适配,小狗跑起来的样子不太符合生物规律。
结语:视频制作工作流,或将被AI重塑
整体体验下来,Seedance 2.0的表现确实有明显提升。无论是长文本指令的理解与还原、复杂音画同步场景的精准匹配,还是超现实画面的稳定生成,它都展现出了明显强于以往模型的综合能力。
当然,它仍存在一些可以改进的地方,其中物理细节还有明显的优化空间。但在动作连贯性、人物一致性与镜头语言执行力上,Seedance 2.0已经开始接近成为可商用的创作工具。
随着Seedance 2.0开始进入豆包这样的大众产品,普通用户也开始能低成本、高频率地尝试视频创作。未来,视频的生产方式、创作门槛乃至内容形态,都可能被重新定义。
热门跟贴