打开网易新闻 查看精彩图片
阿里放了个冷枪。Qwen2.5-VL-72B模型没开发布会、没发长文,直接冲进视频理解排行榜第一,把Google的Gemini 1.5 Pro和OpenAI的GPT-4o甩在身后。这个榜单叫Video-MME,专门测AI能不能看懂视频里的时间线、因果关系,不是那种"识别画面里有只猫"的入门题。
视频理解是多模态的最后一块硬骨头。文本有ChatGPT,图片有Midjourney,但视频一直是"看了,但没看懂"——AI能描述每一帧,却串不起来谁在做什么、为什么做。阿里这次拿72B参数的规模做到第一,相当于用一辆改装皮卡跑赢了一众超跑。
竞争对手的反应很微妙。Luma AI的CEO Amit Jain在X上发了条动态:「我们也在排队等Video-MME的审核结果。」配了个苦笑表情。这句话没提阿里,但谁都看得出他在说什么——榜单更新后,Luma的模型从第二掉到了第三。
国内大模型圈最近流行" stealth launch ",先放榜再说话。DeepSeek是这么干的,阿里现在也学会了。好处是避免翻车,坏处是外界只能猜——这个72B模型到底什么时候开放API、定价多少、能不能处理长视频,目前全是问号。
Video-MME的测试集包含2700个视频,平均时长11分钟。阿里模型在"长视频理解"子项上拉了第二名近8个百分点,这个差距在头部梯队里相当罕见。有研究员在评论区吐槽:现在投视频AI的简历,得先问清楚公司有没有自己的视频基础模型,还是全靠接API。
热门跟贴