作者 商迪安
(来自可灵AI超创@Simon阿文 & @海辛Hyacinth)
头戴鸭舌帽、身着牛仔服的少女向一所散发着古典静穆氛围的美术馆走去;转场,少女走入美术馆、驻足在荷兰黄金时代画家维米尔作品《自画像和他的模特》之前;她内心的声音随之在画外音响起:“我时常在想,她在这里站了300多年,她不会无聊吗?”
镜头随着少女的目光移向画布。仿佛跨越数百年时空,“她”——画中的静伫窗边的模特,逐渐变得生动。她不仅开始在油画所勾勒出的油画世界中行动自如,甚至皮肤的纹理、裙摆的反光都真实得仿佛触手可及。此时此刻,画内画外,凝视者与被凝视者的界限已被打破。
(来自可灵AI超创@野菩萨团队)
另一段视频之中,镜头不断转换,先后聚焦于玛丽莲梦露、达利名作《软钟》、登月的宇航员、拳击手泰森的角斗场……镜头注视的对象看似缺乏关联,实则是在串联已被许多人遗忘的共同记忆。镜头流转之下,影视创作的真谛被宛转表达:“想象,是最伟大的拼贴艺术家。”
这两段跳脱时空的影像,都不是出自传统影视工作室。7月24日,可灵AI官宣视频的多图参考模型及功能完成重磅升级。这也是继1月份多图参考功能全新发布后的又一次模型和功能更新。
开头两条令人惊艳的视频,均是由创作者借助最新可灵AI功能创作完成,前者是可灵AI超创@Simon阿文 & @海辛Hyacinth的最新作品,后者则由可灵AI超创@野菩萨团队创作。
据官方信息,经过盲测,新模型的效果较此前提升高达102%。文章开头的视频,正是由最新的多图参考功能生成。
除了在生成视频的前后一致性、画风精致程度等方面着力提升,可灵AI多图参考还新增了局部参考功能,允许支持用户仅参考图片的局部内容/特定区域来生成内容。
目前,已有许多可灵超级创作者在用最新升级的多图参考功能实现创意。「电厂」已于第一时间观看了创作者们的优秀作品,并获得对最新模型及功能的内测资格、进行了一手体验。
生成视频更一致、更自然、更真实
可灵AI多图参考生成视频功能,允许用户上传1至4张图片,并输入文字prompt;模型将根据用户指令,理解和整合多个图片中的不同角色/主体/场景,生成融合视频。
在可灵AI视频生成的多图参考页面,「电厂」按照指令,输入了经典名画《蒙娜丽莎》,并要求蒙娜丽莎戴上墨镜,在与观众招手互动后转身向画面深处走去。
视频生成完毕后,可以看到可灵AI遵循了prompt指令,并精准捕捉到了墨镜、微笑、招手、转身的关键要素。
最终呈现的视频中,蒙娜丽莎的面部表情、手部动作、行走步态均真实自然。在蒙娜丽莎向画面深处走去时,视频还表现出了她的长发随着行走而微微颤动的细节。
画面背景中的山峦、河流色彩也十分鲜明,整体保留了油画质感。
此外,卡通风格的视频生成效果也十分自然逼真。「电厂」依次输入了橘黄色卡通小猫、咖啡杯、黑色西装、咖啡厅的图片,并输入“一只卡通小猫,穿着黑色西装坐在一张木质咖啡桌前,在啜饮它手里的一杯咖啡”的提示词。
可灵AI生成结束后,可以看到身着西装的小猫依次完成了端起咖啡杯、啜饮咖啡、咂嘴品味的一套动作;并且在此过程中,小猫在端起咖啡杯时身体有微微后仰的动作、在整个视频中小猫的眼神也随着动作发生而发生了生动的变化。
此外,咖啡杯与花盆等其他摆件的空间位置处理、白色咖啡杯表面的反光、猫咪头顶的毛绒质感、画面背景咖啡厅中的灯光/植物暗影等细节,同样处理得十分逼真。
动态质量、画面质量双提升,影片更有“大片感”
除了角色和场景的一致性,升级后的可灵AI多图参考功能还全面提升了画面的动态质量和细节表现,能够生成逼近影视效果、拥有“大片感”的视频内容。
这一环节的实测中,「电厂」首先选取了大热的3A游戏IP黑神话中失去头颅的灵吉菩萨角色,让其与一只正在进行小猫共同完成自拍动作。
除了灵吉菩萨与小猫的图片,「电厂」输入的文字Prompt内容为:
一个穿着破旧僧袍的无头人坐在岩石上专注地弹奏三弦琴,右侧的橘色猫咪高举绑着粉色手机的自拍杆认真拍摄,斑驳的洞穴岩壁上布满青苔,地面大片枯黄杂草在风中摇曳泛起波纹,阴沉的天空下远处海鸟掠过暗色海浪,整体风格真实自然、画风一致。
生成结果显示,灵吉菩萨左右手动作配合自然、表现出了“弹奏”的动作;视频画面中小猫位于右侧,与灵吉菩萨的位置关系、其手持自拍杆的动作也表现得十分合理。
在镜头转场过程中,针对图片中缺失的洞穴岩壁、阳光落在岩壁上的光影关系、天空、海岸景色与海鸟等要素,可灵AI自动完成了补全;生成内容的色调、画风与原图画风一致,保留了游戏原作的中式审美与暗黑风格。
对升级后的多图参考功能而言,生成广告大片也不在话下。
比如可灵超创@雷导借助多图参考功能,生成了一段银发欧美模特身处海底世界,在不同场景之中自由舞动的精致影像。
(来自可灵AI超创@雷导)
「电厂」了解到,这段影像仅通过三张图片以及“远景,镜头拉远,图2人物在水中游泳,图4水底世界,光影变换,水波荡漾,不断气泡上,电影感”的prompt创作生成。
其中,三张图片分别为模特的正面/背面图片、以及一张海底景色图片。
新增局部参考功能,让AI视频生成更精准
本次可灵AI多图参考功能升级,还新增了局部参考功能,允许用户在生成视频时仅参考图片素材的局部内容或是特定区域,让模型仅精准参考图片中的部分要素生成内容,以进一步降低视频生成的不确定性。
根据可灵AI官网操作指引,用户在多图参考页面上传图片后,可以选取参考图片的主体、人物面部、服饰等要素;也可以选择“自定义”选项,用画笔涂抹要参考的区域。
针对这一功能测评,「电厂」选取了“一位头戴皇冠的芭蕾舞者,在萤火虫森林中旋转舞动”的提示词,并上传了萤火虫森林、芭蕾舞者,以及头戴皇冠的男性图片。
选取的图片中,第二张和第三张图片均存在较多干扰因素,比如芭蕾舞者图片中拥有复杂的光影关系,第三张图片的色彩明度极高、与prompt描述的画风不符。
因此,在部分参考环节,「电厂」选择第二张图片仅参考芭蕾舞者的“主体”,第三张图片则选择“自定义”选项、矩形框选男性头上的皇冠部分。
生成结果显示,尽管参考图片中无关要素较多,借助部分参考功能,可灵AI还是仅精准地捕捉到了「电厂」所选取的部分参考要素生成了符合提示词的视频片段。
多图参考生图最多可上传6张图片,支持70+风格化响应
整体而言,相较1月份多图参考功能首发时,本次升级后的可灵AI多图参考在角色、主体和场景一致性、动态质量、画风保持等方面实现了显著提升。
值得一提的是,除了生成视频,可灵AI多图参考的另一个核心场景是生成创意图片。
用户可以通过上传2或2张以上图片,定义图片的主体、场景、风格要素,并在“创意描述”一栏中输入文字prompt,即可生成融合不同图片要素的创意作品,支持70+风格化响应。
此外,多图参考生图页面中,主体参考图单次生成最多可上传4张、场景参考图单次生成最多可上传1张、风格参考图单次生成最多可上传1张。并且多图参考生图功能区别于已上线的“人像参考”“角色参考”,可支持更广泛的主体类型,包括人物、动物、建筑、静物等多元主体选择,允许用户更细致定义自己的创意图片。
比如,当用户分别在参考主体中输入大热互动手游《恋与深空》中的男性角色图片,以及自己的照片,并在创意描述中输入“跨次元合影”的指令,就可以获得一张自己与虚拟偶像的“合体自拍”。
据官方信息,多图参考生图功能可用于多人物人脸保持、场景及风格一致性和可控性要求较高的场景,如创意图片生成、角色IP创作、电商营销以及个人定制化娱乐图像等场景,当下已经拥有了稳固的核心用户群。
值得一提的是,可灵AI早已处在持续而快速的进化过程中。这也体现在用户数据上,7月27日,在世界人工智能大会期间举办的“生成式AI应用元年”论坛上,可灵AI披露了最新的用户数据——在全球拥有超过 4500 万创作者,产品自发布以来迭代升级 30 余次,累计生成超2亿个视频和4亿张图片。
庞大创作者数字的背后,是无数创意梦想亟待被技术满足的希冀。当更实用、稳定、细腻的AI视频和图片生成方式不断涌现,也意味着AI大模型的技术进一步普惠。“人人皆可创作”,已不再是一句口号。
热门跟贴