作者|西梅汁
编辑|星奈
媒体|AI大模型工场
Sora已经全量上线一周。
即使Sora鸽了大家将近一年的时间,但是大家对这款产品仍是报有很高期待,一上线服务器就崩了,不过大家使用体验似乎并不是很好,实际效果似乎有点差强人意。
不少人抱怨,20美金白花了,生成的视频效果不如国产可灵、即梦。
难道Sora真的是起了个的大早,赶了个晚集?
AI大模型工场最终也是斥巨资冲了会员,看看Sora和国产模型的表现到底哪个更胜一筹。
行动胜于空谈,不如咱们动手来得实在!直接开整。
一、编辑板块新亮点
Sora 此次最大的亮点在于,在文、图生视频的基础功能之上引入了多种高级编辑功能,首先咱们看看Sora这几个更新的编辑功能视频表现:
1、Remix(重混)
用户可以使用 Remix 替换、删除以及重新构想视频中的元素,我们可以看到视频中的门和场景都可以被替换或删除:
2、Re-cut(重新剪辑)
找到并分离出最佳帧,向前或向后延伸它们以完成(新)场景,通过挑选合适的视频帧,我们可以重新拓展视频场景:
3、Storyboard(故事板)
在时间线上组织和编辑视频的独特序列,精确控制视频的分镜头发展,从而讲述新故事:
4、Loop(循环)
使用Loop剪辑并创建无缝循环的视频:
5、Blend(混合)
将两个视频合并为一个无缝剪辑:
6、Style presets(风格预设)
使用预设创建和分享激发你想象力的风格,视频目前支持五种风格,Balloon World(气球世界)、Stop Motion(定格动画)、Archival(档案材料)、Film Noir(黑白电影)、Cardboard & Paper(纸工艺品)。
二、Sora VS 可灵AI、腾讯元宝、即梦AI
这部分内容主要从文生视频的角度进行测评,AI大模型工场用同一个Prompt在不同视频模型中生成视频看看他们的表现如何。
1、圣诞探戈场景
Prompt: 美丽圣诞场景,一对探戈舞者正在跳探戈。
Sora
sora生成的动作是认真的吗?咱们可以优雅点嘛,不要看我没学过探戈就可以拿这种动作来糊弄人哎。。。。
下面再看看可灵在同样的关键词下生成的关键词吧。
可灵
可灵生成的圣诞场景和人物跳舞场景都具有协调性。同时人物在大幅度动作上,肢体不仅没有扭曲变形,就连跳舞动作也具有连贯性,相比之下AI大模型工场更喜欢可灵生成的场景。
即梦
可以看到即梦在动作上已经极力在保持优雅了,但是人物手部细节部分没有处理好,女士的手有种无处安放感。
腾讯元宝
元宝生成的场景有一种迪士尼的梦幻感,虽然生成的人物动作幅度较小,但是可以看到手指这些细节方面都没有歪曲变形。总体来说生成的效果氛围感十足,但人物AI感比较明显,缺乏真实感。
2、浪漫樱花场景
Prompt:美丽的春日东京城市熙熙攘攘。相机穿过繁华的城市街道,跟随几个人享受美丽的樱花天气并在附近的摊位购物。绚丽的樱花花瓣在风中飞舞。
Sora
Sora这部分的语义理解明显不到位,没有get到漫天樱花,并且在人物运动过程中出现了很大的变形情况,视频主体的两个女生头部变形很严重,前面一个女生的头向后转了180度,恐怖片既视感,另外这两个女生的衣服也很奇怪,有一种“小孩偷穿大人衣服”的感觉。
可灵
可灵生成的这个漫天樱花场景更加梦幻,有一种日漫街头风,但就是花瓣有点大的像玫瑰了。。。
即梦
即梦的语义理解方面也明显不足,同样没有表现出漫天樱花感,甚至在多场景人物的面部识别上都还不够精准,人物面部模糊。
腾讯元宝
语义理解方面,腾讯元宝生成的樱花场景和人物都表现的不错,包括镜头的转场也没有丝毫违和感,细节上元宝可以说是唯一一个体现出几个人在摊位上购物的场景,包括镜头切换的也很自然。
3、猫咪捕猎场景
prompt:猫正在住宅区里奔跑。令人不可思议的是,以猫的视角来看,脚下有草坪,其他的猫正躺着。看样子它似乎在瞄准鸟儿呢。
Sora
sora生成的猫咪开始的镜头前有些糊感,奔跑姿势处理的比较一般,依然可以看到语义理解方面掌握的还不是很全面,住宅区、鸟儿这些元素都没有体现出来。
腾讯元宝
元宝这部分同样明显理解不够到位,猫咪的呈现状态忽隐忽现的,镜头角度也很粗糙。
即梦
相比之下,即梦这部分的语义理解就很不错,场景中小鸟、其他猫咪躺卧都有精准的表现。甚至可以看到猫咪的镜头语言都很强烈。
可灵
可灵在场景上以及镜头表现的都很全面,文本内容中的元素也都包含了,包括猫咪在运动中的表情和四肢都没有出现变形。
有一说一,对比后发现,虽然Sora在专业的角度上,确实有很多功能上的亮点,包括编辑上的故事板概念都很不错,但可以明显感受到模型能力跟不上。当下国内的AI视频产品追的很紧,各大厂商都在互相卷,我们已经看过太多好的效果了,随手可应付的时代已经回不去了。除了模型能力,用户也很在乎交互、门槛、性价比等等,Sora目前不管从哪个角度来对比,都没有什么足够的优势。
Sora在算法上面是不太一样的,但是到现在还没感觉到Sora的天花板在哪里。官方生成的成品图也确实让人惊艳,但是当用户在实际操作中还是存在很多壁垒的,至少在门槛上就阻碍了众多AI新用户。关键词和功能面板需要更加复杂精准的操作,语义理解程度也不够精准。
最后,麻烦Sam哥还我20刀!!!!
热门跟贴