打开网易新闻 查看精彩图片

Solo Filming 时代真的要来了。


作者|Moonshot

编辑|郑玄

Seedance 2.0 发布后,影视行业感受到了实实在在的冲击。这个全球最好的视频模型,已经能够一键生成接近「影视级」的画面镜头。

但实际上,影视工业从来不是几段「好镜头」的叠加,它本质上是一条极其严密、依赖场面调度的重工业流水线。

从前期的剧本,拆解为复杂的分镜;在拍摄时,要考虑场景搭建、服化道设计、布光天气、场面调度;在后期要梳理镜头,捕捉故事线和剪辑节奏......

一部好作品的诞生,来源于这样一套高度结构化的流程——这也是目前许多视频 Agent 产品的困境:画面都很精致,但作品不成立。

LibTV 的切入点,正好落在这个断层上。

在遍地都是「盲盒生成器」的今天,它是第一个真正懂影视工业流程的 AI 创作平台。

从底层来看,它依然集成了当前最完整的一批模型能力,从 Lib Nano Pro 到 Kling 3.0,一系列 SOTA 图像、视频、语言、音频模型,构成了一个足够强的技术底座。

打开网易新闻 查看精彩图片

使用 LibTV 生成的 AI 短片

但更关键的是它在试图解决另一个层面的问题:统合这些技术,形成一个可控的创作过程。

这也是 LibTV 与多数 AI 视频工具的根本区别,它是真的懂行,也敬畏上百年来形成的影视工业。

当生成不再是问题后,怎么调度才是关键的下一步。

01

用户真正想要的:「导演」的绝对控制权

目前的创作工具,正在两个极端之间摇摆。

一端是只有 chatbot 的对话式生成。它本质上是黑盒,创作者只能通过反复对话去「撞」出一个相对可用的镜头,镜头之间也很难形成结构性的关联。

另一端是节点式工作流。给用户提供了控制力,但代价是复杂度,界面复杂如迷宫,学习成本高到劝退绝大多数人。

而 LibTV 的解法并不复杂,它把两端融合到一起,形成了无限画布叠加节点工作流的复合形态。

从工具到操作空间

LibTV 的主面板是一个巨大的画布,那里没有时间线,也没有一个固定的起点。

所有信息被放在同一个平面上,可以被拖拽、并排、叠加、拆分。文本、图像、视频、音频,各自以节点的形式存在,但它们之间的关系是开放的。

打开网易新闻 查看精彩图片

角色设定、场景草图、视频片段可以被并排摆放,整个项目的结构是全局可见的,创作者可以自由且动态地连接不同的处理环节,也能随时单点删除不满意的分支。

打开网易新闻 查看精彩图片

这种体验很接近 Alan Kay 当年对 Dynabook 的设想。信息不再被封装在一个个独立的软件里,而是像纸张一样被摊在桌面上,可以随时重组,创作过程从「进入工具」变成「操作空间」。

画布上的每一个功能节点都具备高度的可编辑性和可调试性,而这些变化会在整个画布中产生连锁反应。创作者逐渐理清叙事脉络的过程,在视觉上具象化为 Connect the dots(由点连线)的过程。

整个画布之于影视创作者,就像刑侦部门的探案板,也像福尔摩斯的「思想宫殿」。

这种过程很难用传统的软件语言去描述,更接近一种「把思考外化」的过程。随着节点逐渐增多,创作者对自己片子的实现路径也会逐渐清晰,这种感觉像极了影视创作中的「讨论会」,比起生成,它更像在排练的过程。

打开网易新闻 查看精彩图片

这种排演感在 9 宫格与 25 宫格的分镜切分功能上体现得尤为直接。

推演与排练

传统的 AI 视频工具往往停留在「生成一个镜头」,最多扩展到几段拼接。而 LibTV 把分镜本身作为一个可以被生成和修改的对象。

分镜生成和切分功能,让曾经花费大量时间精力去做的推演工作,极其细致地具象化了。从景别、音效、人物动作、台词,到分镜提示词、光影氛围、视频运动提示词……

用户还能直观地看到镜头之间如何衔接,节奏如何推进,并且可以修改每一个表格。

打开网易新闻 查看精彩图片

这种对影视工作流的理解,结合上 LibTV 的技术底座,能让一位独立的创作者,用极低成本完成一个商业级别的 Pre-vis 视觉预演。

尤其是在传统的影视工作流里,创作者写下一行剧本,往往要等上几个月才能在监视器里看到它被视觉化的样子。但在 LibTV 的这块画布上,反馈循环被压缩到了「以分钟计」。

而当我只是有一个简单的故事想法时,LibTV 会带着我不断向前展开。从一句设定,到大致梗概,再到分场景的拆解,最终落在具体镜头上。

这种「推演感」是很多 AI 工具里缺失的部分,它让创作不再依赖一次命中,而是变成一个逐步逼近的过程。

当然,这种方式也不是完全没有门槛。LibTV 分镜生成的细致程度,有时候会超出普通用户的预期。它会给出过于具体的镜头描述、调度建议,甚至包含一些接近专业制作流程的细节。

对于没有受过视听语言专业训练的普通用户来说,面对如此高密度的参数,上手修改的门槛显得很高。

但换一个角度看,这恰恰说明系统预留了足够高的上限,它能拿出一个高精度初稿,我可以选择介入其中任何一环。

打开网易新闻 查看精彩图片

叙事的能力

LibTV 系统目前能够支持生成超过 5 分钟的视频内容,这是影视专业大二短片作业的时长要求,而在 AI 视频领域,这是一个技术分水岭。

当片段开始延展为短片,它就具备承载完整叙事的能力。

为了彻底解决长视频叙事中的人物一致性问题,LibTV 引入了角色三视图生成功能。

看起来只是一个小功能,但这对于想要拍摄连续短剧,或者试图打造单一 IP 形象的创作者来说非常重要,它能让短片里的 AI 演员不再变来变去,这是叙事成立的基础之一。

打开网易新闻 查看精彩图片

无限画布、连点成线、高度可编辑的精细脚本、角色固定……当这些能力成为了 LibTV 的技术底座时,创作的重心也发生了改变。

我花在「怎么生成」的时间减少了,更多精力被拉回到「哪个更好」和「我要表达什么」上。

02

当 Agent 推开「另一扇门」

目前的视频 Agent 赛道看起来很热闹,但多数其实很「单薄」。

它们调用的往往只是碎片化的单点 API,本质上只是一个「调度器」,把一个个模型串起来,完成一条线性的调用链。

但问题在于,这种调用是无结构的,结果每一步都成立,但整体不成立。一旦任务从「生成一个片段」变成「完成一段叙事」,问题就会迅速暴露出来。

LibTV 直接换了个思路,直接调用一整套已经被组织好的「创作能力」。

它把这套能力打包成了 Skill,可以直接部署在 OpenClaw 等平台上,通过简单的对话,就能实现「短漫剧生成 Skill」、「音乐 MV 生成 Skill」甚至是「爆款复刻 Skill」。

在实际体验里,我直接在飞书(已安装 OpenClaw)发给了一张足球图和苹果的广告,下达指令「请复刻这个视频风格,给我的足球做一部宣传片」。

打开网易新闻 查看精彩图片

接下来,LibTV Agent 会自动解构那段视频的镜头语言,自己去理解镜头组接、写脚本、画分镜、生成片段、完成剪辑。

全程我只需要等待它告诉我「做好了」,我点进生成好的视频后,哪里不满意,再用自然语言告知,它会直接自己再理解,再修改。

我就像一个甲方,等待「乙方」提交后,再去做审美判断,选择采用还是修改。

打开网易新闻 查看精彩图片

靠「复刻 skills」在飞书指令里就做出来的足球产品宣传片

这背后的变化超越了单纯的效率提升,是软件设计逻辑的转向。

过去的软件假设「人来一步步操作」,现在则要做到「Agent 能接管流程」。软件不止要比拼功能够不够多,也要看各个能力能否串联,能不能被一次性调用并对结果负责。

所以问题不在于要不要引入 Agent,而在于如何分工。

LibTV 对此给出的答案更像是让人负责选择与审美,Agent 负责执行与扩展。

前者决定方向,把过程中最枯燥乏味的环节解决掉,后者负责把这个方向推到极致,并且以极低成本反复试错。

用户可以做导演,一步步去扣细节,也可以像个甲方一样,直接下指令,看结果。

03

1+1>2:用机器的效率增强人类的直觉

效率工具的理想状态,是让人不干活,但创作工具不能这么干,如果一个创作工具的目标是「让人不参与」,那它最终一定只会生产内容,做不出来作品。

而一部作品之所以成立,不是因为它完成了多少步骤,而是因为创作者在很多节点做出了选择「这个镜头该不该停留长一点」,「这时候要不要接特写强化情绪」,「这里音乐要停还是继续」……

这些决定,至今没有任何模型可以真正替代。

打开网易新闻 查看精彩图片

所以 LibTV 选择打开两扇门,一扇留给人类,一扇交给 AI。

这不是「手动模式」和「自动模式」的区别,而是一种可以随时切换、互相补位的结构。人类的直觉配合机器的算力,最终让 1+1>2。

翻翻 LibTV 官网上的那些精选案例,把他们的工作流节点拆开看,会发现那些顶尖 AI 玩家的「人工介入度」非常高。

节点该怎么连,灯光参数怎么调,场景怎么构建,镜头怎么连接……全都摆在画布上,堪比 AI 时代的免费影像大师课。

打开网易新闻 查看精彩图片

看着这些连线和最终完成的作品,我会意识到 AI 视频开始脱离「奇观展示」的阶段,进入到了「是否能承载创作者的表达」阶段。也就是说,AI 影像开始具备「作品」和进入工业化的条件了。

而一旦进入这个阶段,成本问题就会被重新放大。

AI 视频创作曾经是一个高试错机制,用户不知道哪个版本是对的,只能不断生成、不断推翻,就像「抽卡」一样。而每一次点击生成,都在燃烧用户积分。最终,想象力会下意识给预算让步。

但 LibTV 这次选择当价格屠夫,39 折的年卡,模型积分定价甚至比同类竞品低出 92%。

这本质上是在降低试错门槛,当我更愿意多试一版,多走一条分支,甚至去验证一些原本觉得「不值得」的想法时,创作的结果一定会发生微妙的改变。

打开网易新闻 查看精彩图片

再往前看一步,这种「人+Agent」的结构,其实正在重塑影像行业本身。

过去,影视行业是一条高度工业化的生产线。编剧、分镜、摄影、美术、剪辑,每一个环节都需要专业分工,也需要大量协作成本。个人创作者很难跨越这条门槛,往往受困于资金和团队的匮乏,而非缺乏好想法。

传统的影视工业太重了,重到无数个轻巧的想法难以落地。但 LibTV 提供的技术底座,就在把这条生产线正在被压缩、折叠,甚至集成到一人一平台上。这就是所谓的 Solo Filming。

好玩的 Sweet Spot

LibTV 给我的实际上手体感,是一种「好玩」。它真的在数字世界里为我铺开了一张没有边界的画布。大学期间那些成型的剧本,曾经因为没钱拍、组不了团队而被掐灭的疯狂点子,现在全都有了重新显影的可能,我可以在这上面无尽地折腾。

就算走出单打独斗的 Solo Filming,进入视频行业后,它也可以找到一席之地。比如某场戏的想法验证、分镜展示、风格测试,现在可以被快速压缩、反复推演,不需要到片场开机后再叫停。

打开网易新闻 查看精彩图片

LibTV 很好「玩」,可以用较低的时间成本,就验证一个模糊的想法

LibTV 刚好是在中间的平衡点上。

再往「手动档」那边走一点,会复杂到只能服务于受过科班训练的影视从业者,再「自动化」一点,一切都被设置好了,人就只能不断抽盲盒。

打开网易新闻 查看精彩图片

而在技术和创作的十字路口,LibTV 一边是足够扎实的产品底座,把生成、分镜、剪辑这些原本分散的能力收拢在一起。

另一边,是对影视创作流程本身的理解,它知道一部作品不是「生成」的,而是一步步推演出来的。正因如此,它既没有把人困在繁琐的细节操作里,也没有把人直接踢出创作链路。

当一个工具足够懂行,它一定能懂在一个行业中,「专业的人」有多重要。

就像资深影视从业者郑林在《未来 1500 天,影视行业的钱会被这 1% 的人赚走?》那篇文章里所说的:「未来五年,这个行业里最值钱的东西……是一个真正懂行的人在看完一千个 AI 生成的画面后,安静地指着其中一个说:就是这个。」

最终,在那块无限延伸的画布上,算力、大模型和 Agent 最终都化作了托底的暗流。

水面之上,只有创作者的审美、判断、选择和最纯粹的表达欲,以及那个早就该被讲出来的好故事。

*头图来源:LibTV

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

你如何看待 LibTV ?

打开网易新闻 查看精彩图片