作者|毕乐天

来源|AI先锋官

这事儿闹大了。

前两天,谷歌刚发了Gemini 3 Pro

全网都在吹。

说它智商多高,逻辑多强。

大家都觉得,硅谷巨头又要教做人了。

结果呢?

屁股还没坐热,字节跳动(ByteDance)悄悄扔了个大炸弹。

这个叫Vidi2的模型,它干了一件事:

在视频理解这个领域,把谷歌按在地上摩擦。

真的,不夸张。

咱们直接看数据。

打开网易新闻 查看精彩图片

1. 60分 vs 16分

Vidi2有个核心指标,叫“时空定位”。

听着挺玄乎?

简单说就是:“我在视频里找个人,能不能找准时间,能不能画准框。”

在这个考试里:

字节 Vidi2 考了 60.3 分。

谷歌 Gemini 3 Pro 考了 16.6 分。

打开网易新闻 查看精彩图片

你没看错,不是险胜,是碾压。

这就好比:

谷歌是个大学教授

满腹经纶,上知天文下知地理。

你问他:“这部电影讲了啥?”

他能给你写首诗,分析得头头是道。

但你问他:“那个穿红衣服的人,第几分第几秒出来的?给我截个图。”

教授懵了。

他大概率会瞎指一个:“呃...好像在 10 分钟左右吧?”

结果全是错的,而字节 Vidi2 呢?

它就是个干了 20 年的剪辑老师傅

它不跟你扯虚的。

你要找人?

它直接甩给你一个精确到毫秒的时间轴

看案例

原视频

跟踪到的视频

原视频

跟踪到的视频

原视频

跟踪到的视频

2. 长视频?谷歌那是“老年痴呆”

现在的 AI 有个通病。

记性不好。

你给它扔个 1 小时的视频。

看到后面,它就把前面的忘了。

测试数据很打脸:

只要视频超过 1 小时。

谷歌 Gemini 的准确率直接掉到了21%

基本就是瞎蒙。

而 Vidi2 表现优异。

打开网易新闻 查看精彩图片

3. 这个功能,真能“救命”

说了半天技术,对咱们有啥用?

太有用了。

字节已经把它做进产品里了。

Smart Split(智能拆条)

打开网易新闻 查看精彩图片

想象一下这个场景:

你是个博主,今天录了 2 小时的素材。

累得半死。

还得剪成 5 个短视频发抖音。

以前你怎么搞?

导入电脑,从头看到尾。

一点点剪,一点点修。

一下午没了。

现在怎么搞?

把 2 小时视频往里一扔。

输入:“帮我找找最搞笑的段子。”

去喝杯咖啡。

回来一看,5 条视频剪好了。

打开网易新闻 查看精彩图片

高光时刻给你挑好了。

横屏转竖屏给你切好了。

人脸始终在画面中间(那个 60% 的准确率立功了!)。

打开网易新闻 查看精彩图片

字幕都给你配好了。

这哪里是 AI。

这简直是免费的剪辑实习生啊!

当然也可以体验一下

下面是

https://bytedance.github.io/vidi-website/

点击演示

打开网易新闻 查看精彩图片

上传视频来解读和查询

打开网易新闻 查看精彩图片

查询的内容

打开网易新闻 查看精彩图片

4. 为什么字节这么猛?

你可能会问:

谷歌那么有钱,算力那么强,为啥输了?

这里有个大秘密

谷歌有 YouTube。

打开网易新闻 查看精彩图片

它知道大家喜欢什么。

这能练出很好的推荐算法。

但字节有抖音剪映

打开网易新闻 查看精彩图片

它知道大家是怎么视频的。

这才是关键!

你在剪映里的每一次操作:

切一刀、删一段、加个特效...

都在告诉 AI:“这里是重点”、“这里是废话”。

全世界几亿人,每天都在免费帮字节“标注数据”。

这才是真正的护城河。

谷歌拿着望远镜都看不见的那种。

5. 结语

这次“偷袭”告诉我们一件事:

别迷信大厂。

别迷信大模型。

在这个时代。

谁能干活,谁才是老大。

以后的视频创作,可能真不需要你会剪辑了。

你只要会说话,会提要求。

剩下的脏活累活?

交给 Vidi2 这种“特种兵”就完事了。

如果你是剪辑师,别慌。

它不是来抢饭碗的。

它是来帮你早点下班的。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。