从开盲盒到活世界，实时生成终结AI视频延迟，可玩现实是噱头？

最终你成为了过客

2026-01-19 22:52 ·四川

最近刷AI创作圈的朋友可能都被一个消息炸了锅爱诗科技搞出了个叫PixVerseR1的新东西，号称全球首个能实时生成1080P视频的模型。

现在突然说能“输入即响应”，这到底是真突破还是又一个PPT概念？今天咱们就掰开揉碎了聊聊这事儿。

传统AI视频生成有多让人头疼？用过Sora或者Runway的朋友怕是最有体会。

你想做个“赛博朋克雨夜街头”的片段，输入提示词后就得干等着，中间连改个灯光颜色都得重新排队。

有次我看朋友做产品demo，光调整人物走路姿势就等了40分钟，最后出来的效果居然是倒着走的。

这种“输入-等待-失望”的循环，让创作热情早就被磨没了。

PixVerseR1最让人眼前一亮的，就是把这个“等待游戏”给取消了。

上周参加内测时我试过一个指令，“让穿西装的机器人在办公室跳街舞，突然停电后用手机闪光灯打光”。

这种感觉完全不是在“生成视频”，更像在摆弄一个活生生的数字沙盘。

能做到这点，爱诗科技这800天确实没白折腾。

从2023年10月那个4K模型V1，到今年初落地DiT架构，用户量破亿的背后其实是底层技术的厚积薄发。

就像盖房子，别人还在琢磨怎么把墙砌直，他们已经开始研究怎么让整栋楼能随时变形了。

不过实时生成也不是没有代价，比如快速切换复杂场景时，偶尔会出现物体边缘模糊的情况，但比起那种“卡壳式创作”，这点牺牲好像也值了。

打个比方，传统视频是电影胶卷，你只能从头看到尾，游戏虽然能互动，但画面精细度又差点意思。

而PixVerseR1想干的，就是把电影的画质和游戏的交互捏到一起。

要实现这玩意儿，得靠三个技术支柱撑着。

比如你说“让杯子从桌上掉下来”，它不光知道杯子要碎，还能算出来碎片怎么飞、声音怎么响。

然后是“自回归流式生成”，传统模型是一帧一帧拼视频，就像串珠子，所以容易卡壳，这个技术则是让画面像水流一样连续生成。

从“树林跳城楼”这种大场景切换都不会掉帧。

最后那个“瞬时响应引擎”更关键，把反应时间压到0.3秒以内，刚好卡在人眼感知不到延迟的临界点，不过话说回来，这技术也不是万能的。

内测时我试过让场景持续运行10分钟，结果发现人物走路姿势开始有点“鬼畜”，物理模拟出现了误差累积。

工程师说这是为了实时性牺牲了部分长时稳定性，就像跑车为了速度得牺牲点舒适性。

如此看来，“可玩现实”现在更适合做3分钟内的互动内容，想搞两小时的电影级作品，怕是还得再等等。

其实这事儿最有意思的不是技术多炫，而是它可能会改变我们和内容的关系。

爱诗科技那位CEO王长虎说得挺到位，“传统视频是拍历史，R1是造现在。

”当然了，行业里也不是没人质疑，RunwayML就觉得实时生成该先搞定低分辨率的短视频，StabilityAI还在死磕图像生成。

这就像当年智能手机刚出来，有人觉得打电话够用就行，有人已经在琢磨移动支付了。

说到底，PixVerseR1更像是个技术探路者。

它确实解决了“等不起”的老问题，但“可玩现实”能不能成气候，还得看后续怎么落地。

是开放API给游戏公司做互动剧情？还是让普通人用手机就能捏视频？现在下结论还太早。

不过有一点肯定的是，当AI视频从“被动观看”变成“主动参与”，内容创作的门槛怕是要被彻底推倒了。

说不定过两年，咱们刷到的网红视频，都是观众自己“玩”出来的呢？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴