最近刷AI创作圈的朋友可能都被一个消息炸了锅爱诗科技搞出了个叫PixVerseR1的新东西,号称全球首个能实时生成1080P视频的模型。
现在突然说能“输入即响应”,这到底是真突破还是又一个PPT概念?今天咱们就掰开揉碎了聊聊这事儿。
传统AI视频生成有多让人头疼?用过Sora或者Runway的朋友怕是最有体会。
你想做个“赛博朋克雨夜街头”的片段,输入提示词后就得干等着,中间连改个灯光颜色都得重新排队。
有次我看朋友做产品demo,光调整人物走路姿势就等了40分钟,最后出来的效果居然是倒着走的。
这种“输入-等待-失望”的循环,让创作热情早就被磨没了。
PixVerseR1最让人眼前一亮的,就是把这个“等待游戏”给取消了。
上周参加内测时我试过一个指令,“让穿西装的机器人在办公室跳街舞,突然停电后用手机闪光灯打光”。
这种感觉完全不是在“生成视频”,更像在摆弄一个活生生的数字沙盘。
能做到这点,爱诗科技这800天确实没白折腾。
从2023年10月那个4K模型V1,到今年初落地DiT架构,用户量破亿的背后其实是底层技术的厚积薄发。
就像盖房子,别人还在琢磨怎么把墙砌直,他们已经开始研究怎么让整栋楼能随时变形了。
不过实时生成也不是没有代价,比如快速切换复杂场景时,偶尔会出现物体边缘模糊的情况,但比起那种“卡壳式创作”,这点牺牲好像也值了。
打个比方,传统视频是电影胶卷,你只能从头看到尾,游戏虽然能互动,但画面精细度又差点意思。
而PixVerseR1想干的,就是把电影的画质和游戏的交互捏到一起。
要实现这玩意儿,得靠三个技术支柱撑着。
比如你说“让杯子从桌上掉下来”,它不光知道杯子要碎,还能算出来碎片怎么飞、声音怎么响。
然后是“自回归流式生成”,传统模型是一帧一帧拼视频,就像串珠子,所以容易卡壳,这个技术则是让画面像水流一样连续生成。
从“树林跳城楼”这种大场景切换都不会掉帧。
最后那个“瞬时响应引擎”更关键,把反应时间压到0.3秒以内,刚好卡在人眼感知不到延迟的临界点,不过话说回来,这技术也不是万能的。
内测时我试过让场景持续运行10分钟,结果发现人物走路姿势开始有点“鬼畜”,物理模拟出现了误差累积。
工程师说这是为了实时性牺牲了部分长时稳定性,就像跑车为了速度得牺牲点舒适性。
如此看来,“可玩现实”现在更适合做3分钟内的互动内容,想搞两小时的电影级作品,怕是还得再等等。
其实这事儿最有意思的不是技术多炫,而是它可能会改变我们和内容的关系。
爱诗科技那位CEO王长虎说得挺到位,“传统视频是拍历史,R1是造现在。
”当然了,行业里也不是没人质疑,RunwayML就觉得实时生成该先搞定低分辨率的短视频,StabilityAI还在死磕图像生成。
这就像当年智能手机刚出来,有人觉得打电话够用就行,有人已经在琢磨移动支付了。
说到底,PixVerseR1更像是个技术探路者。
它确实解决了“等不起”的老问题,但“可玩现实”能不能成气候,还得看后续怎么落地。
是开放API给游戏公司做互动剧情?还是让普通人用手机就能捏视频?现在下结论还太早。
不过有一点肯定的是,当AI视频从“被动观看”变成“主动参与”,内容创作的门槛怕是要被彻底推倒了。
说不定过两年,咱们刷到的网红视频,都是观众自己“玩”出来的呢?
热门跟贴