跑道和克林是当今可用的两个最好的人工智能模型。有可能OpenAI 的索拉能胜过它们,但由于其未广泛可用,我无法进行比较。
为了找出这两者中哪一个是最好的,我在一系列挑战中对跑道和克林进行了测试,涵盖复杂的相机运动、宏观人体运动和难以渲染的场景。
跑道在探索模式中每月 95 美元包含无限的视频生成。克林的高级计划每月 92 美元,包含 8000 个积分。10 秒的生成需要 70 个积分。在性能方面,跑道往往比克林快很多,尤其是在您切换到涡轮模式的情况下。但是使用无限计划时,您同时只能进行两个生成。
总的来说,跑道和克林在可用功能和性能方面大致相当。有一些功能,比如仅克林具备的运动画笔和跑道独有的视频转视频,但它们在功能上大致相等 - 所以归结为视频生成。两者都在我的最佳 AI 视频生成器列表中。
以下是我们的跑道与克林比较的结果。
测试评分
任何对视觉或创意事物的测试都会是主观的,但这并不意味着我们不能对这个过程进行科学处理。我想出了一个规则,检查良好和逼真的 AI 视频所需的能力。每个类别最多可得 10 分。
其中一些是人工智能传统上难以处理的领域,例如准确的人体运动或视觉一致性。其他方面,例如提示遵守情况因模型而异,但这也是我只进行文本到视频的原因,因为它需要人工智能更多的控制。
- 视觉质量: 评估图像的整体清晰度、细节以及真实感。
- 运动平滑度: 评估运动看起来有多自然和流畅。
- 提示遵守: 确定生成的视频与给定提示的匹配程度如何。
- 创造力/解释: 对人工智能对提示的创造性解释进行评分,特别是对于更抽象的概念。
- 技术执行: 评估特定的技术方面,如照明、相机运动和过渡。
创建提示
测试两个非常不同的 AI 视频模型并不像只是给它们相同的提示并比较输出那么简单。这是进行测试的一种方式,但它没有给每个模型展示其最佳表现的机会。
为了更好地了解它们在类似任务上的比较情况,我在五个测试中的每一个都使用了克林和跑道的提示指南来完善自定义提示。这些传达了相同的想法,是公平的,但针对每个模型进行了定制。
我在 Kling 以及正常的 Gen-3 Alpha(非涡轮增压模式)中,以专业模式进行了所有测试,时长均为 10 秒钟,测试在 Runway 中开展,而其他所有设置均保持默认。
1. 车辆测试
首先,我们来看看每个模型在捕捉逼真的车辆运动并将其融入动态环境这方面表现得怎么样。我期望跑车能够向前行驶,相机保持静止,并且符合照明要求。
Runway
Runway 提示:“低角度静态拍摄:一辆时尚的跑车沿着蜿蜒的沿海公路疾驰。汽车动态行驶,紧贴道路弯道。电影照明,傍晚黄金时段。当汽车接近并通过时,相机保持固定。”
Kling
Kling 提示:“一辆时尚的跑车沿着蜿蜒的沿海公路疾驰。车辆动态行驶,紧贴弯道。傍晚黄金时段照明。相机:静态低角度拍摄,当汽车接近并通过时固定位置。”
2. 人物测试
对于第二项测试,我们会让每个模型在社交环境中渲染出一个人物。重点在于面部表情和手势,不过我还会观察他们与环境互动的情况,以及人物的手指数量对不对。
我也没指定性别,来看看模型会怎么发展。我怀疑“动画”这个词也会把他们难住,而且我们没法得到逼真的视图,因为这会覆盖掉智能手机拍摄的元素。
跑道
关于跑道的提示:“中近景的跟踪拍摄镜头:一个人坐在熙熙攘攘的咖啡店里,正进行着生动的交谈。相机缓慢地从左向右平移,展现出更多充满活力的咖啡馆环境。柔和温暖的灯光,自然、纪录片风格的移动方式。”
克林
克林提示:“通过智能手机拍摄的镜头,一个人坐在熙熙攘攘的咖啡店里,正进行着生动的交谈。柔和、温暖的灯光突出了充满活力的咖啡馆环境。相机移动:从左到右缓慢平移,中近景跟踪镜头。自然、纪录片风格。”
3. 火箭发射测试
自从跑道的第一个版本以来,我在每个模型上都尝试过的一个测试是看看它如何处理火箭的发射。这是一个有趣的测试,因为它要求模型捕捉滚滚的烟雾、升空的动作,并将其安排在 10 秒的剪辑之中。
跑道
关于跑道的提示:“从广角的定场镜头过渡至动态镜头:发射台上的一枚巨大火箭,发动机点火,火焰强烈,烟雾滚滚。相机开始静止,然后随着火箭升空戏剧性地向后和向上拉,展现出发射场的规模。火箭火焰与周围区域之间强烈的照明对比。”
克林
克林提示:“一枚巨大的火箭置于发射台上,引擎点火,产生浓烈的火焰和烟雾。火箭起飞,从而展现出了发射场的规模。镜头移动方式:先从静态广角镜头开始,接着随着火箭上升大幅度向后和向上拉伸。”
4. 自然场景测试
在这倒数第二个测试里,我想瞧瞧模型怎样处理快速运动以及自然环境的复杂性。它得穿过雨林的树冠层,然后过渡到下层植被场景。对此,我可不抱太大希望。
跑道
跑道提示:“连续的超高速 FPV 镜头:相机无缝地飞越一片郁郁葱葱的雨林,在高耸的树木之间穿梭。阳光透过树冠进行过滤,在森林地面上形成了斑驳的光影。场景从茂密的下层植被过渡到一个隐匿的瀑布,水滴在慢动作中闪闪发亮。”
克林
克林提示:“一片郁郁葱葱的雨林,有高耸的树木。阳光透过树冠过滤,在森林地面上形成斑驳的光影。场景从茂密的下层植被过渡到一个隐藏的瀑布,水滴闪闪发光。镜头移动:连续超高速 FPV,在树木之间穿梭,以慢动作效果在瀑布处结束。”
5. 抽象概念测试
最后,我想瞅瞅模型怎么处理一个抽象概念。在这儿,它们得展示一颗种子变成一棵树,并且在一个镜头里需要不同的视角。
跑道
关于跑道的提示:“从宏观电影摄影过渡到广角:种子发芽并长成参天大树的延时摄影。相机从种子的极近距离开拍,然后逐渐拉远,以展示其完整的生命周期。场景从土壤转变为广阔的森林。漫射光从冷色调演变为暖色调,随着树木的成熟。”
克林
关于克林的提示:“生长过程的延时可视化:种子发芽并发展成参天大树。场景从土壤转变为广阔的森林,代表生长的概念。随着树木的成熟,光线从冷色调演变为暖色调。相机运动:从种子的极端微距拍摄开始,逐渐拉远以展示完整的生命周期和周围的森林。”
获胜者:克林
每次测试的分数在很大程度上是主观的,基于最初的反应以及一天后查看时的再次思考。例如,在车辆测试中,我本能地轻松判定克林获胜,但再次查看时,发现差距小了很多。
我将克林和跑道针对准则的每个元素的分数相加,然后将每次测试的分数相加得出总分。
这是两个模型之间一场非常接近的竞赛,在任何测试中,两者都没有完美地表现出色或发挥出最佳能力。有一些出色的时刻,例如克林的火箭发射或跑道的树木,但没有哪个视频能整体获胜冲过终点线。
这表明,如果您进行正确的提示,并使用为每个 AI 视频生成器所提供的指南,您可以从每个中获得更好的响应,甚至使机会均等。也值得第二天回去再看一看。
热门跟贴