大数据文摘出品

近日,字节跳动发布的 Seedance 1.0,一个强大的AI 视频生成模型

在权威评测平台 Artificial Analysis 上,它同时拿下文本转视频、图像转视频两个第一,力压 Google 的 Veo 3、快手的可灵 2.0 和 OpenAI 的 Sora。

Artificial Analysis 文生视频榜单

Artificial Analysis 图生视频
榜单

(注:为实现评估上的统一,Artificial Analysis 将 Veo 3 Preview 生成视频去掉声音后参与上述榜单评测。)

Seedance 最大的特点,是能把一句简单的文字,变成一段完整、连贯、多镜头的视频。比如你输入“女孩弹钢琴,多镜头切换,电影质感(I2V)”,生成视频就能呈现多个视角切换、人物动作流畅、风格统一,甚至连光线方向和背景细节都基本对得上。

 字节发布 Seedance 1.0 ,登顶全球视频生成榜,力压快手可灵、谷歌 Veo3
打开网易新闻 查看更多视频
字节发布 Seedance 1.0 ,登顶全球视频生成榜,力压快手可灵、谷歌 Veo3

视频来自字节跳动官方微信

这不只是“能画”,而是“能拍”。

目前生成 5 秒高清视频仅需 41 秒,生成速度在公开同类模型中属于较快水平;虽然还不支持音频,但在画面质量、动作自然度和镜头控制上,Seedance 已经让不少业内人惊讶。

视频模型难,不是难在清晰度

AI 做视频的难点,其实不是画得清楚,而是“动得自然、连得上”。一个角色从 A 点走到 B 点,脸型不能变、步态要顺、镜头别晃,这远比做出一张好图复杂得多。

 字节发布 Seedance 1.0 ,登顶全球视频生成榜,力压快手可灵、谷歌 Veo3
打开网易新闻 查看更多视频
字节发布 Seedance 1.0 ,登顶全球视频生成榜,力压快手可灵、谷歌 Veo3

视频来自字节跳动官方微信

Seedance 为了解决这个问题,走了一条“笨功夫”路线:大规模训练 + 逐层过滤。它背后的数据集包含了从公开和授权渠道收集的大量视频,经过多轮清洗,剔除了水印、字幕、暴力等内容,然后再由自动系统和人工加上关于人物动作、画面风格、镜头语言等上万个标签。

这种“精修标签”的方式,不同于直接塞入大量数据堆算力。它让模型真正学会理解“镜头推近”“缓慢转头”“城市黄昏光线”这类描述,而不是仅凭关键词去“拼凑”画面。

在后续训练中,字节还用到了“人类反馈”:让人类挑出更符合提示、更自然的视频,让模型持续优化输出质量。也就是说,它不是一次训练完毕,而是在“人挑视频—模型学习—人再挑”的反馈闭环中不断打磨。

从内部测试走向产品化

和 Veo、Sora 这类状态的模型不同,Seedance 已经实打实接入了字节跳动自己的产品:AI 创作平台「即梦」,以及智能助手「豆包」。前者面向专业创作者,后者则让普通人也能用一句话生成视频。

产品团队设计了一个很典型的使用场景:用户对着手机说,“帮我做一个讲健康饮食的短视频”,Seedance 就能自动生成场景、人物、镜头语言,再配上豆包的文本逻辑,30 秒后,一个带有结构和风格的视频就完成了。

这个过程中,官方定位为 ‘零提示门槛’,无需用户编写复杂 Prompt。但目前也有短板,比如不支持音频,不支持人物连续说话或演讲等复杂语义。对此,团队正在开发下一个版本。

注:封面图AI生成

GPU算力按需租用

A100/H100 GPU算力按需租用,

秒级计费,平均节省开支30%以上!

扫码了解详情☝