很少有人能预测到,一段威尔·史密斯试图吃意大利面的扭曲、抽风的视频会成为现代人工智能历史上最重要的前后对比的代表之一。
2023年使用ModelScope生成的原始剪辑糟糕得让人印象深刻,简直像在演歌剧。史密斯的脸扭曲得表情都不协调,双手变得像橡胶一样,面条漂浮着,好像被奇怪的引力控制着。“威尔·史密斯吃意大利面”成了AI视频生成早期离谱阶段的代名词。
三年后,同一个梗体现了变化有多快。Reddit上有一个名为“3 years of AI progress”的合集,通过这个梗图展现了变化过程。早期生成式AI视频的混乱现在成了展示整个领域成熟速度最快、最简单的方式,已经到了大多数人无法区分AI视频和现实的程度。
2023年的片段如今看起来像是一件文物,就是那种在纪录片里展示技术刚诞生时,用来表现它有多青涩的东西。AI没法让史密斯的脸在每一帧里都保持稳定,最初的视频暴露了早期文本转视频系统的真正短板。到2024年初,这个梗已经火到不行,连史密斯本人也跟着玩梗,他在TikTok上发了一段视频,他现实中吃意大利面时,每个动作都做得特别夸张。
最新版Kling 3.0,只需一句话,就能生成整个场景——史密斯和一个小孩一起吃面,甚至还能聊天。
AI影视
AI视频的进步在画面里一眼就能看出来:眼睛不再对眼,人脸结构也更稳了,碗不再在帧间瞬移。到了最新模型的时候,连意大利面都像真东西一样有物理效果,连打光都变得自然了。
早期模型虽然能做出好看的单帧,但没法让角色、动作、甚至场景在时间上保持连贯。而Kling 3.0全程都能保持连贯,这段短片从头到尾就像是在同一个真实世界里拍的。
这是一次时间压缩的演示,展示了整个研究重点是如何转变的。首先是解剖一致性,然后是运动连贯性,接着是更高分辨率,再然后是逼真的物理效果,最后是模型能遵循提示的情感或叙事意图。
意面梗测试
个性是意面梗能火这么久的原因。而某种程度上,这种个性正是最新模型开始捕捉到的。在早期的片段中,屏幕上的一切都没表现出任何意图。到了最后,AI生成的史密斯角色似乎真的在做一个动作,仿佛是由内在逻辑而非随机逐帧瞎编所引导。
这一转变对AI视频领域来说,传递了一个重要信号。一旦模型能在运动中保持角色一致,就能按我们预期的方式呈现人类动作了。
互联网多年来自顾自地记录着各种荒诞内容,但这个梗已经成长为一把标尺。如果模型能令人信服地做到这一点,那它的水平是早期系统完全想象不到的。
热门跟贴