今天刷到一个视频,是字节刚推的Seedance 2.0生成的——输入“暴雨夜,穿红裙的女人推开锈铁门”,3秒后出来90秒成片。有雨声、门轴吱呀声、她睫毛颤动的特写,镜头从背后低角度跟拍,推门那一瞬还带了个轻微晃动。我连播三遍,愣是没看出哪一帧是“算”出来的。

不是特效,不靠绿幕,也没人写分镜脚本。而Sora 2现在还得先画故事板,再喂给模型跑,中间卡顿、重试、调参数,一上午可能就出30秒。我们同事试过,用同一句中文提示词让两边跑,Seedance输出的运镜节奏,比Sora生成的更像人眼真实扫视的习惯。

打开网易新闻 查看精彩图片

这不是升级,是换了一套“脑子”。美国那边靠H100堆算力,我们这边把算法压得更紧。斯坦福那份报告里写的“能效比”,现在真成了硬通货。你算力再猛,一焦耳电只跑出0.8帧,我用1/5的电跑出1.3帧,那剩下的电,就是时间、是成本、是能反复试错的底气。

TikTok十年攒下的数据,不是点赞收藏那么简单。它知道人看到第几帧会划走,哪一秒重看三次,连暂停时手指悬停的位置都记着。这些数据喂给模型,练出来的根本不是“生成视频”,是“预测人想看什么”。所以Seedance听懂“红裙”不只是颜色,是情绪、是反差、是雨夜里唯一一抹亮色。它默认你就想要这个。

打开网易新闻 查看精彩图片

有人还说中国AI芯片不行。中芯国际的N+2工艺,和台积电3nm比,晶体管密度差一截,但专门跑视频AI的“寒武纪-天鹰”芯片,INT8算力密度反超23%。为啥?因为它不硬拼通用算力,专攻“时空块调度”——把视频当成三维空间切片来管,不是一帧一帧地画,而是像搭积木一样调位置、光、动势。英伟达的CUDA生态太重,我们直接绕开,自己写了套光流+语义联合编码器。

电费也省到离谱。新疆的风电、四川的水电,直接连进西部超算中心。字节和宁德时代还一起搞了个“AI功耗瞬时调控算法”,电网下午电价高,服务器自动降频;半夜谷电时段,整栋楼的AI训练全速开跑。结果呢?美国那边渲染一部电影级AI短片,成本四千多美元。我们这边,330块钱,够交三次房租了。

语言上也悄悄变了。Seedance支持72种语言输入,但中文指令识别准度比英文高18%。不是翻译问题,是算法本身吃中文吃得香——中文词少意密,一个“锈铁门”自带时间感、质感、声音联想,模型压缩起来更顺。现在东南亚几个国家,已经把“Seedance基础操作”塞进中学数字课了。你不会中文?那连提示词都写不准,更别说调出你要的东西。

这不是突然冒出来的。我高中奥数教练说过,中国学生从小练的不是“怎么解题”,是“在三条线、两个角、一张纸的限制里,找出唯一解”。IOI近十年金牌27块,美英德法加一起才26块。这不是智商高,是习惯在框里找最优解。汉代《九章算术》算田亩,宋代算学馆教天文历法,今天强基计划数学班还在做同一件事:问题来了,怎么用最少的工具,打最准的点。

Seedance不是个软件,是这套逻辑第一次跑通了。它没喊口号,也不发白皮书,就安静地把一段暴雨夜的红裙,一帧不差地送到了你眼前。

种子落地了。