作者|子川
来源|AI先锋官
国内首个支持角色扮演的视频生成模型,它终于来了。
近日,阿里正式发布了新一代通义万相2.6系列模型,此次的更新规模非常大。
据介绍,通义万相2.6是目前"全球功能最完整"的视频生成模型。
在视频创作上,万相2.6不仅有文生视频、图生视频,还有多音频驱动生视频能力,同时还引入了音画同步、多镜头叙事等能力。
先来看此次升级的亮点,角色扮演。
简单来说,就是给AI一个参考视频,AI不仅学会了视频里人物长相,还学会了他的动作、表情,甚至音色。
然后你使用提示词控制这个虚拟人物去演一个全新的故事。
我们使用官方的角色跑了几个案例,大家看一下效果到底如何。
提示词:@温柔女 站在一个馅饼摊旁,在卖馅饼,在大声说我的馅饼很好吃,并邀请路人去购买
提示词:@温柔女 一个女生在雪地里翩翩起舞
提示词:@温柔女 用英文自我介绍
可以明显的感受到,视频中的角色和音色都是一致的,口型匹配也较为准确,不过有时候细节处理的不够自然,看起来会有些许的AI感。
但这些问题都是能忍受的范围,毕竟AI视频生成需要抽卡是常有的事。
这里大家可能会疑惑,那对比Sora2 的效果如何呢?
对了给大家一个直观的对比,下面我们就目前市面唯二支持角色扮演的产品:Sora2和通义万相2.6来实测对比一番。
让他们分别唱一首英文Rap。
这个前后的对比还是非常大的,先说Sora2,依旧充满惊艳感,多镜头的切换很自然,发音、语速都很流畅,缺点则是有些画面对口型不是很完美。
通义万相2.6则有点翻车了,在口型对齐、语速控制与画面连贯性方面确实要比Sora 2差一点。
换一个,再让它们进行弹吉他。
有一说一,Sora 2 的声画同步几乎做到了“乐队现场”级别,右手扫弦和发出的声音严丝合缝。
而通义万相2.6中人物弹奏的声音和动作明显不对,有点穿帮了。
再来一个,让他们用中文介绍广州。
依旧是Sora 2更胜一筹,可以明显感受到通义万相 2.6感觉声音和画面不是在同一层面上。
整体体验下来,其实结论已经很清晰了。
Sora 2 不愧是目前效果最好的视频生成工具,依然是目前视频生成领域的天花板级。
不管是唱 Rap、弹吉他,还是中文讲解城市,声画统一、节奏控制、多镜头调度都明显更成熟,很多时候已经接近“可直接商用”的水准。
反观通义万相 2.6则更像是功能跑通了,体验还没跟上。
口型、动作、声音三者之间经常出现各说各的,一旦涉及音乐、节奏或连续表演,短板就会被迅速放大。
文生视频、图生视频、多音频驱动、角色扮演这些能力能一次性集成到同一个体系里,本身就说明底层技术已经跑通了。
只是在当前阶段,它更偏向“工程完成度优先”,而不是“体验极致优先”。
与 Sora 2 的差距确实存在,而且差得也不算小,但这种差距并不是路线错误,而是时间与积累的问题。
口型、声画同步、节奏感这些能力,本质上都是需要长期打磨的“细活”,通义万相 2.6 现在可能还不是那个让人惊呼的产品,但它已经站在了正确的赛道上,期待它下一次的迭代~
目前 可直接在万相官网体验万相2.6,企业用户还能通过阿里云百炼调用模型API,感兴趣的可以去试玩一番!
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
热门跟贴