Seedance 2.0杀入豆包！海外网友翻墙跪求，国内用户免费用，附一手实测|seedance|正式版模型|豆包

智东西2月11日报道，今天，陆续有不少用户发现，字节跳动已在旗下AI助手App豆包内开启视频生成模型Seedance 2.0的灰度测试。

用户只需打开豆包，点击下方的创作按钮，进入视频生成功能后，已被纳入灰度测试的用户就可看到模型2.0（Seedance 2.0）的选项。

自2月7日在即梦等平台灰度上线以来，Seedance 2.0就让整个AI视频圈炸了锅。

《黑神话·悟空》背后的游戏科学创始人兼CEO、制作人冯骥在体验后Seedance2.0后，盛赞该模型为“地表最强”，并判断道：“AIGC的童年时代，结束了。”a16z的合伙人Justine Moore则感叹道：“AI视频模型的图灵测试已经被攻克了。”一位学习了7年数字电影制作的网友在体验后说，这个模型让他感到害怕，他所学习到的90%技能，Seedance2.0都能实现。

过去，往往是国内用户费尽心思去体验国外的AI工具，而这次，Seedance 2.0作反而成为海外网友“争相体验”的对象。

由于该模型在部分国家和地区尚未开放，不少海外网友在社交平台频频“催上线”、询问开放时间；还有人专门制作了详细教程，分享如何通过中国手机号完成注册，并一步步体验Seedance 2.0的完整流程。

Seedance 2.0上线豆包App后，智东西也第一时间进行了体验。我们尝试了从日常场景到超现实场景的多种创作，发现模型对复杂提示词的理解能力明显增强，同时音画同步和视觉效果的呈现也更自然，较字节的上一代视频生成模型，实现了可感知的大幅提升。

一、实测长提示词指令遵循，高难度乐器演奏、超现实场景也能还原

据字节官方技术文档，Seedance 2.0在物理规律、动作表现、指令遵循等领域均有明显提升，还支持了图像、视频、音频、文本四种模态输入，这意味着用户能以更多的方式控制模型的输出，满足创作需求。

不过，目前在豆包App中，Seedance 2.0暂时仅支持文本和图像两个模态的输入。每个用户每天可以获得200视频生成积分，而用Seedance 2.0生成一个10秒的视频，需要耗费20积分，也就是说每个人可以体验10次。

我们的首个测试案例是长文本提示词输入，下方提示词精确定义了画面里的主体、动作以及音效，看看Seedance 2.0能否准确还原。

提示词：突然，前方街角的阴影里，一只漆黑的猫像一道闪电般窜出，身形轻盈而敏捷。女孩被吓得微微后退一步，雨水顺着帽沿落在她的肩膀上，溅起一圈细小水花。镜头侧面缓缓跟随，捕捉她的手伸出，试图轻轻触碰黑猫。猫的耳朵微微竖起，眼睛在昏黄路灯下闪着绿光，它轻巧地一跃，仿佛带着夜色消失在湿漉漉的街道深处。女孩愣了一秒，低头看着自己微湿的手指，嘴角悄悄上扬，露出一丝忍俊不禁的笑意。她轻轻摇摇头，雨伞下的脸被灯光映出温暖的光晕。随后，她重新调整步伐，撑开雨伞，加快了前行的脚步，雨水拍打伞面的声音伴随着她鞋底溅起的水花，融入夜晚街道的喧嚣中。音效提示词：猫叫声轻响，随即消失；雨点拍打伞面滴答作响；远处偶尔传来汽车轰鸣声和脚步声，街道弥漫湿润气息。

在大约等待了30秒后，豆包向我们发送了生成结果。提示词中描述的几个关键动作都在视频中得到了呈现，同时，画面中人物的衣着、样貌在不同的镜头中都保持了一致，视觉效果比较稳定。

音效方面，Seedance 2.0的配音与画面内容调性一致，而像是猫叫声、脚步声这些声音则与画面内容匹配，基本实现了音画同步。

美中不足的是，对于“雨水顺着帽沿落在她的肩膀上”这部分的描述，Seedance 2.0未能还原。平心而论，液体的渲染对大多数视觉生成模型来说还是较为困难的。

紧接着，我们又尝试了一个涉及音画同步的高难度场景：乐器演奏。此前，在我们的体验中，大部分视频模型都无法准确地将音乐与画面的演奏动作同步，要么节奏对不上，要么手指动作与音符不符，要么整体演奏显得生硬、不自然。

Seedance 2.0拿到的提示词如下：

街头音乐表演，鼓手敲击节奏、吉他手弹奏旋律，观众随节奏轻拍手，音乐是拉美风格。

Seedance 2.0的生成结果可以说是较为惊艳的，在音乐风格上，它满足了我们的“拉美风格”限定词，背景中的人物、建筑风格也符合拉美风的要求。

乐器演奏方面，鼓手的桶鼓轮奏动作与音乐的鼓点，基本达到了8成的契合度，这要比我们之前测试的字节视频生成模型好得多。

而在吉他手的演奏中，画面中手部按压的和弦和视频里模型生成的音乐也是基本契合的，左右手的手法都是自然、连贯且细节丰富，琴弦拨动与音符节奏高度对应。

细看还可以注意到，背景中观众拍手的动作和视频里的声音是精准卡点的。

我们的最后一个纯文本提示词考察的是一个超现实场景，这种场景在模型训练数据里可能分布较少，考察的是对罕见视觉元素、超现实组合和非日常场景的生成能力。

画面开场是一座夜晚的城市，全景俯拍，城市灯光闪烁，街道像河流般流动。随后，镜头慢慢拉近，出现几栋建筑缓缓离地漂浮，建筑底部闪烁着微光能量。空中漂浮的汽车像鱼群般游动，偶尔从建筑间穿梭而过。主角是一位身穿银色风衣的少年，脚下踩着悬浮板，从高楼之间穿行而过。镜头切换至近景，少年伸手触碰漂浮的建筑，触碰瞬间建筑表面出现液态光纹，建筑缓缓旋转、折叠，随后化作光粒飞向夜空。背景出现巨大月亮，月亮上投射出城市倒影，光线折射在漂浮建筑和人物身上。

Seedance 2.0遵循了我们的镜头提示词“全景俯拍”，而提示词中相对少见的“悬浮板”、“漂浮汽车”这些元素，模型也能做到合理、真实地呈现。

而在最后一个动作中，像是“液态光纹”、“化作光粒飞向夜空”这些复杂的画面要求，Seedance 2.0也能准确还原。

二、图生视频出现物理Bug，结合豆包模板后玩法更多

在日常使用中，还有一大需求就是输入图像，生成视频。相比纯文本生成，图生视频往往对模型的结构理解能力、主体一致性保持能力以及动作补全能力提出更高要求。

模型不仅要“看懂”图像中的人物、环境和构图关系，还要在此基础上合理延展动作与镜头。同时，如何在生成过程中保持人物样貌、服饰细节与整体风格不发生偏移，也是衡量图生视频能力的重要标准。

我们首先上传了一个沙滩场景和一位小男孩的肖像，要求Seedance 2.0生成图中男孩在沙滩上奔跑的画面。上传图片作为输入后，可以明显感觉到模型的生成速度变慢了一些。