打开网易新闻 查看精彩图片

Matrix-Game-3.0今天放出了完整代码,把实时交互视频从实验室拽进了开源社区。这个模型能在单张消费级显卡上跑出720p画质,延迟压到3秒以内——相当于你看完一句话,画面已经跟上了。

开发者放出的Demo里,用户打字输入场景描述,AI实时生成对应画面。有人试了"赛博朋克风格的城市夜景",镜头推近、霓虹闪烁,全程没有预渲染的卡顿感。项目主页写着「实时交互是生成式视频的下一个战场」,这话放在半年前还算画饼,现在成了可下载的权重文件。

技术细节藏得不多:基于扩散模型改造,砍掉了传统视频生成里的冗余采样步骤。代价也有,720p是目前上限,人物面部偶尔还会融化成抽象派。但开源协议是Apache 2.0,意味着商用免费、魔改随意——这和闭源的Pika、Runway形成了微妙对照。

社区反应分化明显。游戏开发者已经在盘算怎么塞进交互叙事,影视从业者则吐槽"3秒延迟做不了直播"。GitHub星标数6小时破千,Issue区第一条是"求支持Mac M系列芯片"。

最扎心的评论来自一位网友:"上次看到这么快的开源视频模型,还是Sora发布前的谣言期。"