AI 视频,还能往哪个方向卷?Luma AI 的答案有些与众不同。对手还在练一招一式,它却像风清扬传授独孤九剑,讲究灵活变通,如行云流水,任意所之。

Luma AI 或许不如可灵、Runway 知名,但论实力也在第一梯队,它的视频模型叫作 Dream Machine,今年 6 月发布,最近进行了重磅升级,是推出产品以来声势最大的一次。

打开网易新闻 查看精彩图片

其中包括两项更新,一是发布自己的图像模型 Luma Photon,将文字、图像、视频一锅端;二是打造了生成 AI 视频的全新工作流,我们可以像和 ChatGPT 聊天一样,让 AI 生成视频,不用对提示词字斟句酌。

对于生成视频这件事,Dream Machine 首创了一种很新的方式。

指路https://dream-machine.lumalabs.ai/

聊着聊着,就把视频给生成了

打开 Dream Machine,我们先看到的是「Board」,可以将它理解为无限的创意画布,在这里,我们使用自然语言,自由地生成图像或者视频。

开始一块 Board,我的提示词写得非常简单:「创建一个日式悬疑少年漫画的角色。」

AI 扩写了我的提示词,一次生成了 4 张图片,但是不行,年代不对。

打开网易新闻 查看精彩图片

没关系,再在对话框输入一句,「放在现代背景」。

打开网易新闻 查看精彩图片

AI 表示懂了,又生成了 4 张图片,右上这张孤身走暗巷,已经接近我想要的感觉了,但仍然不够,我想要他抬起头,露出五官。

不难,继续微调,忘掉复杂的提示词,和 AI 打直球就可以。

打开网易新闻 查看精彩图片

右下这张不错,虽然形象幼态了点。接下来,我想让 AI 生成一个视频,主角在同一条巷子里从白天走到黑夜。

Dream Machine 生成视频的首尾帧功能,就是为这种需求准备的——我们挑好头尾的两张图片,让 AI 补足中间的过程。

打开网易新闻 查看精彩图片

那么,我们只需基于满意的图片,让 AI 生成几张白天场景的,沟通方式还是一样的简单粗暴。最终选定的两张图片,细节略有落差,但同框也不违和。

打开网易新闻 查看精彩图片

万事俱备,只等生成视频,AI 过渡得还算自然。

打开网易新闻 查看精彩图片

看到这里,你应该明白 Dream Machine 和其他视频工具的区别了。

其他视频工具,通常是给你一个填入提示词的文本框,然后让你设置运镜、时长等参数。设置一次,生成一次。

但 Dream Machine 的界面,看起来非常像和聊天机器人交互,底部是输入框,文生图、图生图、图生视频、文生视频,都可以在这里进行。

打开网易新闻 查看精彩图片

专业创作者可以继续写传统的提示词,但我们也拥有了「讲人话」的权利,压力给到 AI,Dream Machine 能够理解上下文,帮我们完善提示词,我们可以从一个非常粗糙的想法开始,和它边聊边改边优化。

又因为 Dream Machine 是无限画布形式的,我们可能在一个环节反复生成,素材都会保留下来,不会互相覆盖。

我们的思维,不会局限在一段提示词、一个视频,而是像水一样流淌,更多的想法,可能就在这个过程里产生了。

更可控的图片,更可控的视频

Dream Machine 的全新工作流就像大树的主干,其中一些好玩且实用的功能则像枝桠,相得益彰,才能枝繁叶茂。

起到关键作用的,就是 Dream Machine 最新发布的图像模型 Luma Photon。

图片怎么生成得更符合我们的审美?Dream Machine 支持风格参考和角色参考功能。

先说风格参考,我们可以导入自己的图片,AI 会将风格融入到创作中。官方给出了一个例子:按蒙德里安风格,生成小鸟版的《戴珍珠耳环的少女》。

打开网易新闻 查看精彩图片

按这个思路实操一下,基于男性侦探的形象,参考梵高《星月夜》的风格,生成女性侦探。

打开网易新闻 查看精彩图片

二次元遇上后印象派,化学反应很奇妙。

打开网易新闻 查看精彩图片

角色参考功能,则可以通过一张图片,就实现角色的一致性,让这个角色出现在更多的图片和视频里。

打开网易新闻 查看精彩图片

马斯克是行走的素材库,这样的例子太没挑战性了,我决定让甄嬛瞬移到哈利波特的世界,看场景变了之后,她还能不能气场两米八。

打开网易新闻 查看精彩图片

结果有些不好评价,看得出来是甄嬛的面容,但娘娘的长相入乡随俗,五官尤其眼睛,变得更像欧美人了。

打开网易新闻 查看精彩图片

其实,不另外找图片参考,Dream Machine 也可以让图片、视频不泯然于众人,这时候就要用到「头脑风暴」功能,它会根据你生成的图片,推荐一些艺术家的风格。

打开网易新闻 查看精彩图片

就像甄嬛进霍格沃茨这张,我们可以用吉卜力工作室风格二创。宫崎骏说过,AI 是对生命本身的侮辱,但现实是,吉卜力已经是 AI 的一个选项,尽管有形无神。

打开网易新闻 查看精彩图片

不仅如此,提示词里的一些关键词,被框选了起来,能用下拉的选项替换,Dream Machine 称之为「概念药丸」,我们不用自己手写提示词,一键更换艺术风格,或者画面元素。

打开网易新闻 查看精彩图片

把「吉卜力」换成「新海诚」,把「独角兽」换成「龙」,不过点击几下的功夫。

打开网易新闻 查看精彩图片

Luma Photon 模型,基于 Luma 的通用 Transformer 架构构建。通过开发自己的图像模型,Luma AI 可以减少对 Midjourney 等外部图像模型的依赖,同时也能解决文生视频不稳定的问题。

当然,视频是老本行,镜头运动这种可控性功能,Dream Machine 也少不了。

打开网易新闻 查看精彩图片

紫禁城的甄嬛,和霍格沃茨的甄嬛,能不能实现丝滑的转场呢?用推拉镜头,画面有动感,人物没有严重的变形,可以打个 80 分。

打开网易新闻 查看精彩图片

视觉的思维,讲故事的方式

巧的是,前两天 Runway 也官宣了自己的图像生成模型 Frame,和 Luma 更新是同一个晚上,看演示就知道非常注重审美,目前正逐步向 Gen-3 Alpha 开放资格。

打开网易新闻 查看精彩图片

Runway Frame

图片的生成质量、美学高度,以及视觉风格的一致性和可控性,越来越被视觉模型重视了。

这对创作者来说是好事,当我们用 AI 进行平面设计、角色设定时,其实就是在生成一个独特的世界,讲一个独特的故事。

Runway 的 CEO Cristóbal Valenzuela 认为,Runway 不是一家 AI 公司,而是一家媒体和娱乐公司,AI 公司的时代已经结束了。

他不是在唱衰 AI,恰恰相反,他认为 AI 是一种基础设施,真正的革命不在于技术本身,而在于它所实现的东西:新的表达形式、讲述故事的新方式、连接人类体验的新方法。这和 Luma 的进化方向不谋而合。

打开网易新闻 查看精彩图片

这次更新之后,Luma AI 首席执行官兼联合创始人 Amit Jain,给 Dream Machine 下了一个很有趣的定义——视觉思维合作伙伴。

概念有些抽象,他的意思其实就是,让生成图片、视频这样的视觉创作,像聊天一样简单、直观。

交互的方式,影响着我们思考的方式。画布式的工作流,能将脑洞可视化,记录所有的创作过程和结果,呈现生成视频的完整思路。

无限画布通常在图像模型较为常见,比如 Recraft 和 Ideogram 的 Canvas。Dream Machine 的画布更加规整,相同提示词生成的素材和变体横向排列,不同的则竖向排列。

打开网易新闻 查看精彩图片

边聊边生成边优化的过程,会让人觉得,一个独立的小世界仿佛在画布里诞生。

先让 Dream Machine 用超写实电影 CG 风格,创造一个工业废土背景游戏的主角。

打开网易新闻 查看精彩图片

然后用环绕镜头,让主角动起来,并塑造环境的空间感。

打开网易新闻 查看精彩图片

接着,我们可以再和 AI 聊,让 AI 继续生成废土世界观里室内室外的各种场景,让 AI 建议我们怎么塑造得更有末日气息。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

某种程度上,这个画布,就是我们个人故事的设定集。

当然,Luma AI 的 bug 也很多,包括但不限于,用一张图片实现角色一致性,效果并不理想;积分如流水,图片和视频还是要反复抽卡;图片模型可以生成准确的英文,但中文不行......

打开网易新闻 查看精彩图片

但意思传达到位了——少谈参数,以交互为出发点,构建一个 AI 创作工具。

更好的视频模型,不只是有更快的生成速度、更可控的镜头运动、更独特的美学,它应该也提供更好的讲故事的方式,让文字、图像、视频都作为表达想法的工具。

Dream Machine,造梦机器。

打开网易新闻 查看精彩图片

只管去创作吧,如同 Luma AI 的这句话:「不需要写复杂的提示词,问就好了。」未来 AI 留给我们的问题,不再关于技术,而是关于我们用它构建什么。