阿里新模型刷榜215项第一，50分钟美剧看完就懂

全栈遛狗员

2026-04-02 11:36 ·北京

阿里终于把通义千问Qwen2.5-Omni端上来了。官方说法是"全模态"，翻译成人话就是：文本、图像、音频、视频，扔进去什么都能处理，出来的是人话。

我测了下它看《老友记》的能力。不是截个图问"这是谁"那种敷衍测试，是直接把50分钟完整剧集丢进去——片头曲、对话、背景笑声、场景切换，全都不剪。结果它不仅能复述剧情，还能接住那种"你没看前10季根本不懂"的梗。比如钱德勒说了句讽刺莫妮卡的台词，它知道笑点在哪，甚至能告诉你这句话callback了第三季的哪个情节。

这种能力放在以前，得分别用语音识别、视频理解、长文本记忆三个模型串起来做，中间还得有人写胶水代码对齐时间戳。现在一个模型端到端搞定，延迟压到了秒级。

更狠的是全球评测。它在AudioBench、AV-Odyssey这些多模态基准里拿了215项SOTA，相当于别人还在分科考试，它直接拿了全科状元。但阿里自己倒是挺克制，发布会没喊"颠覆"，只说了句"希望成为全模态基础模型的标准方案"——这话听着像谦虚，其实是把野心写进了脚注。

有个细节挺有意思：模型在处理视频时，会自主决定"看"和"听"的权重。比如画面里两个人在吵架但声音被音乐盖住，它会调高视觉注意力去读唇语和表情；如果是播客类内容，听觉通道就占主导。这种动态分配不是人工写的规则，是训练里自己长出来的策略。

我最后试了个刁钻场景：给它一段没有字幕的默片片段，问人物情绪变化。它答对了，还补了一句"从镜头语言看，导演在这里用了逐渐推近的特写来压迫观众"。

一位做视频剪辑的朋友听完我的测试，回了一句："那以后是不是可以把粗剪丢给AI，我直接改第二版？"——这大概是产品经理最想听到的用户反馈。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴