AI 视频,还能往哪个方向卷?Luma AI 的答案有些与众不同。对手还在练一招一式,它却像风清扬传授独孤九剑,讲究灵活变通,如行云流水,任意所之。
Luma AI 或许不如可灵、Runway 知名,但论实力也在第一梯队,它的视频模型叫作 Dream Machine,今年 6 月发布,最近进行了重磅升级,是推出产品以来声势最大的一次。
其中包括两项更新,一是发布自己的图像模型 Luma Photon,将文字、图像、视频一锅端;二是打造了生成 AI 视频的全新工作流,我们可以像和 ChatGPT 聊天一样,让 AI 生成视频,不用对提示词字斟句酌。
对于生成视频这件事,Dream Machine 首创了一种很新的方式。
指路https://dream-machine.lumalabs.ai/
聊着聊着,就把视频给生成了
打开 Dream Machine,我们先看到的是「Board」,可以将它理解为无限的创意画布,在这里,我们使用自然语言,自由地生成图像或者视频。
开始一块 Board,我的提示词写得非常简单:「创建一个日式悬疑少年漫画的角色。」
AI 扩写了我的提示词,一次生成了 4 张图片,但是不行,年代不对。
没关系,再在对话框输入一句,「放在现代背景」。
AI 表示懂了,又生成了 4 张图片,右上这张孤身走暗巷,已经接近我想要的感觉了,但仍然不够,我想要他抬起头,露出五官。
不难,继续微调,忘掉复杂的提示词,和 AI 打直球就可以。
右下这张不错,虽然形象幼态了点。接下来,我想让 AI 生成一个视频,主角在同一条巷子里从白天走到黑夜。
Dream Machine 生成视频的首尾帧功能,就是为这种需求准备的——我们挑好头尾的两张图片,让 AI 补足中间的过程。
那么,我们只需基于满意的图片,让 AI 生成几张白天场景的,沟通方式还是一样的简单粗暴。最终选定的两张图片,细节略有落差,但同框也不违和。
万事俱备,只等生成视频,AI 过渡得还算自然。
看到这里,你应该明白 Dream Machine 和其他视频工具的区别了。
其他视频工具,通常是给你一个填入提示词的文本框,然后让你设置运镜、时长等参数。设置一次,生成一次。
但 Dream Machine 的界面,看起来非常像和聊天机器人交互,底部是输入框,文生图、图生图、图生视频、文生视频,都可以在这里进行。
专业创作者可以继续写传统的提示词,但我们也拥有了「讲人话」的权利,压力给到 AI,Dream Machine 能够理解上下文,帮我们完善提示词,我们可以从一个非常粗糙的想法开始,和它边聊边改边优化。
又因为 Dream Machine 是无限画布形式的,我们可能在一个环节反复生成,素材都会保留下来,不会互相覆盖。
我们的思维,不会局限在一段提示词、一个视频,而是像水一样流淌,更多的想法,可能就在这个过程里产生了。
更可控的图片,更可控的视频
Dream Machine 的全新工作流就像大树的主干,其中一些好玩且实用的功能则像枝桠,相得益彰,才能枝繁叶茂。
起到关键作用的,就是 Dream Machine 最新发布的图像模型 Luma Photon。
图片怎么生成得更符合我们的审美?Dream Machine 支持风格参考和角色参考功能。
先说风格参考,我们可以导入自己的图片,AI 会将风格融入到创作中。官方给出了一个例子:按蒙德里安风格,生成小鸟版的《戴珍珠耳环的少女》。
按这个思路实操一下,基于男性侦探的形象,参考梵高《星月夜》的风格,生成女性侦探。
二次元遇上后印象派,化学反应很奇妙。
角色参考功能,则可以通过一张图片,就实现角色的一致性,让这个角色出现在更多的图片和视频里。
马斯克是行走的素材库,这样的例子太没挑战性了,我决定让甄嬛瞬移到哈利波特的世界,看场景变了之后,她还能不能气场两米八。
结果有些不好评价,看得出来是甄嬛的面容,但娘娘的长相入乡随俗,五官尤其眼睛,变得更像欧美人了。
其实,不另外找图片参考,Dream Machine 也可以让图片、视频不泯然于众人,这时候就要用到「头脑风暴」功能,它会根据你生成的图片,推荐一些艺术家的风格。
就像甄嬛进霍格沃茨这张,我们可以用吉卜力工作室风格二创。宫崎骏说过,AI 是对生命本身的侮辱,但现实是,吉卜力已经是 AI 的一个选项,尽管有形无神。
不仅如此,提示词里的一些关键词,被框选了起来,能用下拉的选项替换,Dream Machine 称之为「概念药丸」,我们不用自己手写提示词,一键更换艺术风格,或者画面元素。
把「吉卜力」换成「新海诚」,把「独角兽」换成「龙」,不过点击几下的功夫。
Luma Photon 模型,基于 Luma 的通用 Transformer 架构构建。通过开发自己的图像模型,Luma AI 可以减少对 Midjourney 等外部图像模型的依赖,同时也能解决文生视频不稳定的问题。
当然,视频是老本行,镜头运动这种可控性功能,Dream Machine 也少不了。
紫禁城的甄嬛,和霍格沃茨的甄嬛,能不能实现丝滑的转场呢?用推拉镜头,画面有动感,人物没有严重的变形,可以打个 80 分。
视觉的思维,讲故事的方式
巧的是,前两天 Runway 也官宣了自己的图像生成模型 Frame,和 Luma 更新是同一个晚上,看演示就知道非常注重审美,目前正逐步向 Gen-3 Alpha 开放资格。
Runway Frame
图片的生成质量、美学高度,以及视觉风格的一致性和可控性,越来越被视觉模型重视了。
这对创作者来说是好事,当我们用 AI 进行平面设计、角色设定时,其实就是在生成一个独特的世界,讲一个独特的故事。
Runway 的 CEO Cristóbal Valenzuela 认为,Runway 不是一家 AI 公司,而是一家媒体和娱乐公司,AI 公司的时代已经结束了。
他不是在唱衰 AI,恰恰相反,他认为 AI 是一种基础设施,真正的革命不在于技术本身,而在于它所实现的东西:新的表达形式、讲述故事的新方式、连接人类体验的新方法。这和 Luma 的进化方向不谋而合。
这次更新之后,Luma AI 首席执行官兼联合创始人 Amit Jain,给 Dream Machine 下了一个很有趣的定义——视觉思维合作伙伴。
概念有些抽象,他的意思其实就是,让生成图片、视频这样的视觉创作,像聊天一样简单、直观。
交互的方式,影响着我们思考的方式。画布式的工作流,能将脑洞可视化,记录所有的创作过程和结果,呈现生成视频的完整思路。
无限画布通常在图像模型较为常见,比如 Recraft 和 Ideogram 的 Canvas。Dream Machine 的画布更加规整,相同提示词生成的素材和变体横向排列,不同的则竖向排列。
边聊边生成边优化的过程,会让人觉得,一个独立的小世界仿佛在画布里诞生。
先让 Dream Machine 用超写实电影 CG 风格,创造一个工业废土背景游戏的主角。
然后用环绕镜头,让主角动起来,并塑造环境的空间感。
接着,我们可以再和 AI 聊,让 AI 继续生成废土世界观里室内室外的各种场景,让 AI 建议我们怎么塑造得更有末日气息。
某种程度上,这个画布,就是我们个人故事的设定集。
当然,Luma AI 的 bug 也很多,包括但不限于,用一张图片实现角色一致性,效果并不理想;积分如流水,图片和视频还是要反复抽卡;图片模型可以生成准确的英文,但中文不行......
但意思传达到位了——少谈参数,以交互为出发点,构建一个 AI 创作工具。
更好的视频模型,不只是有更快的生成速度、更可控的镜头运动、更独特的美学,它应该也提供更好的讲故事的方式,让文字、图像、视频都作为表达想法的工具。
Dream Machine,造梦机器。
只管去创作吧,如同 Luma AI 的这句话:「不需要写复杂的提示词,问就好了。」未来 AI 留给我们的问题,不再关于技术,而是关于我们用它构建什么。
热门跟贴