阿里视频模型空降榜首，Luma们还在排队等审核

薛定谔的BUG

2026-04-11 10:27 ·北京

阿里放了个冷枪。Qwen2.5-VL-72B模型没开发布会、没发长文，直接冲进视频理解排行榜第一，把Google的Gemini 1.5 Pro和OpenAI的GPT-4o甩在身后。这个榜单叫Video-MME，专门测AI能不能看懂视频里的时间线、因果关系，不是那种"识别画面里有只猫"的入门题。

视频理解是多模态的最后一块硬骨头。文本有ChatGPT，图片有Midjourney，但视频一直是"看了，但没看懂"——AI能描述每一帧，却串不起来谁在做什么、为什么做。阿里这次拿72B参数的规模做到第一，相当于用一辆改装皮卡跑赢了一众超跑。

竞争对手的反应很微妙。Luma AI的CEO Amit Jain在X上发了条动态：「我们也在排队等Video-MME的审核结果。」配了个苦笑表情。这句话没提阿里，但谁都看得出他在说什么——榜单更新后，Luma的模型从第二掉到了第三。

国内大模型圈最近流行" stealth launch "，先放榜再说话。DeepSeek是这么干的，阿里现在也学会了。好处是避免翻车，坏处是外界只能猜——这个72B模型到底什么时候开放API、定价多少、能不能处理长视频，目前全是问号。

Video-MME的测试集包含2700个视频，平均时长11分钟。阿里模型在"长视频理解"子项上拉了第二名近8个百分点，这个差距在头部梯队里相当罕见。有研究员在评论区吐槽：现在投视频AI的简历，得先问清楚公司有没有自己的视频基础模型，还是全靠接API。

打开网易新闻体验更佳