打开网易新闻 查看精彩图片

物理派终将降临

文/林书

编辑/刘宇翔

最近我影视圈的朋友们有点焦虑,虽然这个圈也不是焦虑一两天了,这些年票房下滑、募资难,即使咖位不低的出品人的日子也不好过,但这次不一样,他们担心的是:会被AI 抢了饭碗吗?

2 月 7 日那天,字节跳动旗下即梦平台悄然上线了 Seedance 2.0。没有发布会,没有铺天盖地的预热,只是在飞书上放了一份产品文档,标题简洁到近乎嚣张——“Kill the game”。

紧接着的几天里,《黑神话:悟空》制作人冯骥发布数百字长评,称其为“当前地表最强的视频生成模型”,断言“AIGC的童年时代结束了”;科技博主影视飓风Tim也连呼六次“恐怖”。

这一切看起来都是一部“中国 AI 的胜利叙事”——六十秒多镜头、分镜脚本控制、原生音画同步、电影感拉满,它给大家带来了“人人都能当导演的”想象。

过去国内影视行业苦心学习好莱坞的“电影工业”模式,还没学会,现在又要被“Seedance 时刻”重新解构。

然而,在这片欢呼声中,却很少有人追问一个更根本的问题——这种技术路线的天花板在哪里?它是真的代表了AI视频的未来方向,还是仅仅是一次成功的工程化优化?

要回答这个问题,我们就不得不回到那场持续了两年多的路线之争。

早在 2024 年,当 OpenAI 的 Sora 首次向世人展示其惊艳的能力时,图灵奖得主、Meta 首席 AI 科学家杨立昆就泼下了一盆冷水。他直言不讳地表示,Sora 及其同类产品不过是 “像素幻觉”。

杨立昆的核心论点是:如果一个模型不懂真正的物理规律,不理解物体之间的因果关系和空间关系,那么所有视频生成模型都走不长远,最终都会在更复杂的场景中“露馅”。

这就是此刻横亘在 AI 视频赛道面前的根本分歧。

一派我姑且称之为”世俗派”,以字节、快手为代表,追求电影感与叙事流畅,技术路线是数据驱动的风格模仿。

另一派是“物理派”,以杨立昆的 AMI Labs、英伟达的 Cosmos 平台、DeepMind 的 Genie 3 为代表,认为视频只是世界模型的副产品,真正的目标是让 AI 理解质量、动量、因果和空间。

两派的分歧不是技术细节之争,而是对“视频到底是什么”的根本性分歧——它是给人看的像素序列,还是物理世界运行规律的一个投影?

这个问题的答案,将决定Seedance 乃至字节在这场竞赛中的终局位置。

01

两派的天花板

要理解这两条路线之间的本质差异,我们要跳出从技术细节,从商业生态和长期天花板的角度来思考。

从目前来看,Seedance 2.0 优化的是“导演意图→像素”的转化率。它做得极好——你写一段提示词,它自动规划分镜和运镜,同时吞吐文字、图片、视频、音频四种模态的参考信息,一次性吐出带完整音轨的多镜头视频。

这是一种极其聪明的工程优化,一段原本需要专业团队花费数天时间拍摄和剪辑的视频,现在只需要放素材、输入几个提示词就能在几分钟内生成。

但它有一个结构性的局限:每一次生成都是一次性成果,即刻被消费。

你用 Seedance 2.0 做出了一段精美的赛博朋克追车戏,但这段视频里的城市、飞行汽车、反派角色,全部无法被提取出来复用。它们不是“资产”,只是“像素”。你不能调整视频中的某个物体的物理属性,你不能与这段视频进行任何形式的交互。它就是一个一次性消费品,用完即弃。

这意味着世俗派的天花板被锁死在“内容消费”这一层。电影、短剧、广告、电商视频是市场巨大,但底层逻辑是“生成一次,消费一次”。

而物理派打开的是另一扇门:可复用的三维世界。一旦 AI 真正理解了物理规律,它生成的不是像素序列,而是一个有质量、有碰撞、有光照、有因果律的虚拟环境——这个环境可以被游戏引擎调用,可以被机器人在其中训练,也可以被自动驾驶系统用来模拟边缘案例。这些是万亿级的市场。

最具说服力的案例是 Unreal Engine 5 向影视行业的渗透。

迪士尼的《曼达洛人》是这场渗透的里程碑。该剧的视效团队工业光魔(ILM)为此专门研发了名为StageCraft的虚拟制片系统。其核心是一面270度环绕的巨型LED幕墙,高度超过六米,由上千块LED面板拼接而成。幕墙背后运行的正是虚幻引擎——四台PC同步驱动幕墙上的每一个像素,实时渲染出塔图因的沙漠、涅瓦罗的熔岩平原、以及外太空的星际场景。

打开网易新闻 查看精彩图片

更关键的是,StageCraft 中的虚拟场景资产——3D 建筑、地形、光照预设——全部可复用,可以在下一部剧集中被调用、修改、组合,甚至授权给游戏开发团队做成可交互的虚拟世界。一次建模,无限复用。这正是“资产思维”与“像素思维”的本质差异。

这项技术的意义远不止于提高效率。它标志着游戏引擎这个原本属于游戏产业的技术,正在渗透进影视制作的核心环节。Unreal Engine 不再只是一个游戏开发工具,它正在成为影视工业的基础设施。

02

物理派的降维打击

更具跨界说服力的案例来自英伟达与工业光魔的合作探索。

在《侏罗纪世界:统治》中,工业光魔(ILM)就使用了Omniverse连接Maya、Houdini、Unreal等工具,实现跨软件的实时物理协作。恐龙皮肤的肌肉变形、植被的风力摆动、水花的流体模拟,在不同软件间实时同步物理状态,Omniverse让物理仿真成为实时共享的基础设施。

当物理世界模型能够理解重力、惯性、碰撞、材质变化等底层规律时,它生成的将不仅是“看起来像”的视频,而是一个可以实时交互的虚拟片场。

导演可以在这个数字孪生环境中预先演练镜头运动、光照变化、甚至演员走位——这意味着拍电影不再是“拍一次,看一次”的线性流程,而是可以反复推敲、动态调整的沉浸式创作。

更进一步,这个虚拟片场的环境参数可以无缝对接工业机器人训练场景:同样的光照模型可以用于训练机器人在真实工厂中的视觉识别系统,同样的空间逻辑可以用于自动驾驶的仿真测试。物理派正在成为横跨娱乐与工业的基础设施,而不是某个垂直赛道的工具——这才是它最恐怖的地方。

由此便能看清两派的生态位差异:物理派一旦成熟,可以向下兼容世俗派的全部需求——你想要电影级视频?从物理世界模型中提取一个虚拟摄影机的视角输出即可。

但世俗派永远无法向上兼容物理派——你不能把 Seedance 2.0 生成的像素序列塞进机器人训练框架,因为里面没有碰撞体积、没有质量参数、没有可交互的物理实体。这是单向度的降维打击。

从成本上来看,短期内世俗派更便宜,但这只是相对而言的“便宜”。

按照字节极即梦的定价标准,69元/月的会员,每月可获得1080积分,用Seedance 2.0生成一段15秒的视频,则需要消耗90积分,换算下来,每秒生成费用约为0.77元,一分钟大约需要46元——对于专业创作者来说,这已经比传统拍摄制作成本低了几个数量级,但仍不足以让普通消费者无限制地“生成着玩”。

打开网易新闻 查看精彩图片

更关键的是,2026年的视频生成战场已经白热化。

快手可灵AI到2025年底已在全球拥有6000万创作者,累计生成超6亿个视频,累计合作超3万家企业用户,2026年1月MAU已突破1200万。字节Seedance 2.0上线即遭遇可灵3.0的正面狙击,两家在电影感生成、多镜头叙事、2K实时生成等能力上贴身肉搏,价格战与品质战同步打响。

与此同时,Runway、Veo 3.1等海外玩家在控制力与物理模拟上也持续迭代。

当世俗派还在与同行卷生卷死时,物理派资产复用性的优势,却会在长远时期逐步显现——一个虚拟城市环境建模一次,可供影视、游戏、仿真、训练四个行业反复调用,不仅市场更加广阔,且边际成本会愈发趋近于零。

长期来看,分层架构必然成为主流:底层是物理世界模型,上层叠加不同行业的表现力需求。

换言之,当物理派完成了对真实物理世界的数字化建模后,世俗派多年积累的“提示词工程经验”将被彻底降维打击:你引以为傲的专业技能,不过是调用几个API参数的工作,这使得世俗派最终很可能会成为“打工仔”:它们不是被技术淘汰,而是被技术架构钉死在了价值链的最低端,只能做物理世界模型的“渲染层”,而非“定义层”。

03

如何跳出内容红海

话又说回来,我写这篇文章的目的不是为了否定 Seedance 2.0 的价值,恰恰相反,我是真心认为这是一项了不起的技术突破。

但正因如此,我更关切的问题是:这种领先能够持续多久?字节跳动应该如何定位自己,才能继续有更大突破?

Seedance 2.0 技术领先是事实,但技术领先不等于商业闭环。它目前的核心价值停留在“内容消费层”。全球短视频市场2026年规模预计达593亿美元,到2035年将突破6400亿美元,复合年增长率高达30.3%;其中字节跳动凭借抖音和TikTok合计占据全球短视频市场约40%的份额,在国内市场更是占据绝对统治地位。

然而问题在于,这个市场的增长逻辑本质上是流量变现——所谓的“天花板”并非来自竞争,用户规模见顶、时长增速放缓,这些困境实际上是来自整个商业模式的内在局限。

因为视频行业本质上是一个注意力经济”的赛道,而人类时间、精力的有限性,决定了这必将是一个“零和博弈”,且越来越卷的红海。

冯骥在长评中担忧“内容领域必将迎来史无前例的通货膨胀”,但短期来看,这种通胀短期内不太可能真正发生。原因很朴素:当下Seedance 2.0 的生成成本并不便宜。据即梦平台定价,每天赠送的免费积分仅够生成十五秒内容;据极客公园估算,制作一部九十分钟片子的总成本也在两千多元。

面对此等局面,字节的可能的姿势是什么?答案或许是:先在B端找准“甜蜜点”,对物理派路线采取“占坑”而不All in的态度。

字节这次出牌,本质上是在说:AI视频不能只靠“抽卡”,专业创作者需要确定性。这个定位抓得很准——Sora 2虽然物理模拟强,但输入受限;Veo 3.1虽然质感好,但太贵;Seedance 2.0在控制力和成本之间找到了一个专业市场的甜蜜点。

说白了,Seedance 2.0 最具商业价值的能力不是“生成好看的视频”,而是多模态精准控制——同时输入九张图片、三段视频、三段音频共十二个参考文件,精确复现导演意图。这种确定性输出恰恰是广告和电商行业最刚性的需求。

在用 B 端利润养活自己的同时,字节可能会在物理派方向保持存在,保持发声,保持与学术界(斯坦福、清华)的联系。但不会大规模扩张——如果2027年世界模型还没突破(比如Google Genie-3还是Demo),按字节的务实节奏,很可能立刻转做“具身智能for 工厂”,而不止在消费级。

打开网易新闻 查看精彩图片

然而,从更宏观的视角看,字节面临的真正考验不是“能不能做出好看的视频”,这一关已经过了,而是“能不能掌握分发权”。

在 AI 视频时代,分发权的底层支撑不再是推荐算法,而是世界模型的能力。

因为未来 10 年,计算的入口从 “屏幕” 转向 “空间”(世界模型/VR/机器人),而空间交互的底层是 “物理可信的虚拟世界”——没有这些,就只能永远是内容分发商,不是平台规则制定者。

但此刻,字节的技术路线仍然是“数据驱动的风格模仿”,距离真正的物理理解还有本质性距离。

例如在我测试的一个案例中,一个烧红的铁球砸到冰块上,冰块本应熔化、凹陷,但视频中的冰块,却像硬邦邦的固体那样,没有丝毫变化,这说明现在的 Seedance 2.0,在物理理解方面,仍然有进步的空间。

打开网易新闻 查看精彩图片

科技行业有一个规律:真正改变游戏规则的技术,从来不是那个当下最时髦的,而是那个定义了下一层基础设施的。

字节今天需要的,不是纠结于 Seedance 3.0 能否在“电影感”的战场上多赢几分,而是在这场格局已定的胜利之后,能否有续攀高峰的勇气,向物理派的深水区进发。

这,才是真正跳出内容红海的正道——不是换个姿势继续卷,而是换一个维度去定义未来。