字节发布 Seedance 1.0 ，登顶全球视频生成榜，力压快手可灵、谷歌 Veo3

大数据文摘

2025-06-16 13:15 ·北京

大数据文摘出品

近日，字节跳动发布的 Seedance 1.0，一个强大的AI 视频生成模型。

在权威评测平台 Artificial Analysis 上，它同时拿下文本转视频、图像转视频两个第一，力压 Google 的 Veo 3、快手的可灵 2.0 和 OpenAI 的 Sora。

Artificial Analysis 文生视频榜单

Artificial Analysis 图生视频

榜单

（注：为实现评估上的统一，Artificial Analysis 将 Veo 3 Preview 生成视频去掉声音后参与上述榜单评测。）

Seedance 最大的特点，是能把一句简单的文字，变成一段完整、连贯、多镜头的视频。比如你输入“女孩弹钢琴，多镜头切换，电影质感（I2V）”，生成视频就能呈现多个视角切换、人物动作流畅、风格统一，甚至连光线方向和背景细节都基本对得上。

字节发布 Seedance 1.0 ，登顶全球视频生成榜，力压快手可灵、谷歌 Veo3

视频来自字节跳动官方微信

这不只是“能画”，而是“能拍”。

目前生成 5 秒高清视频仅需 41 秒，生成速度在公开同类模型中属于较快水平；虽然还不支持音频，但在画面质量、动作自然度和镜头控制上，Seedance 已经让不少业内人惊讶。

视频模型难，不是难在清晰度

AI 做视频的难点，其实不是画得清楚，而是“动得自然、连得上”。一个角色从 A 点走到 B 点，脸型不能变、步态要顺、镜头别晃，这远比做出一张好图复杂得多。

字节发布 Seedance 1.0 ，登顶全球视频生成榜，力压快手可灵、谷歌 Veo3

视频来自字节跳动官方微信

Seedance 为了解决这个问题，走了一条“笨功夫”路线：大规模训练 + 逐层过滤。它背后的数据集包含了从公开和授权渠道收集的大量视频，经过多轮清洗，剔除了水印、字幕、暴力等内容，然后再由自动系统和人工加上关于人物动作、画面风格、镜头语言等上万个标签。

这种“精修标签”的方式，不同于直接塞入大量数据堆算力。它让模型真正学会理解“镜头推近”“缓慢转头”“城市黄昏光线”这类描述，而不是仅凭关键词去“拼凑”画面。

在后续训练中，字节还用到了“人类反馈”：让人类挑出更符合提示、更自然的视频，让模型持续优化输出质量。也就是说，它不是一次训练完毕，而是在“人挑视频—模型学习—人再挑”的反馈闭环中不断打磨。

从内部测试走向产品化

和 Veo、Sora 这类状态的模型不同，Seedance 已经实打实接入了字节跳动自己的产品：AI 创作平台「即梦」，以及智能助手「豆包」。前者面向专业创作者，后者则让普通人也能用一句话生成视频。

产品团队设计了一个很典型的使用场景：用户对着手机说，“帮我做一个讲健康饮食的短视频”，Seedance 就能自动生成场景、人物、镜头语言，再配上豆包的文本逻辑，30 秒后，一个带有结构和风格的视频就完成了。

这个过程中，官方定位为 ‘零提示门槛’，无需用户编写复杂 Prompt。但目前也有短板，比如不支持音频，不支持人物连续说话或演讲等复杂语义。对此，团队正在开发下一个版本。

注：封面图AI生成

GPU算力按需租用

A100/H100 GPU算力按需租用，

秒级计费，平均节省开支30%以上！

扫码了解详情☝

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴