打开网易新闻 查看精彩图片

阿里终于把通义千问Qwen2.5-Omni端上来了。官方说法是"全模态",翻译成人话就是:文本、图像、音频、视频,扔进去什么都能处理,出来的是人话。

我测了下它看《老友记》的能力。不是截个图问"这是谁"那种敷衍测试,是直接把50分钟完整剧集丢进去——片头曲、对话、背景笑声、场景切换,全都不剪。结果它不仅能复述剧情,还能接住那种"你没看前10季根本不懂"的梗。比如钱德勒说了句讽刺莫妮卡的台词,它知道笑点在哪,甚至能告诉你这句话callback了第三季的哪个情节。

这种能力放在以前,得分别用语音识别、视频理解、长文本记忆三个模型串起来做,中间还得有人写胶水代码对齐时间戳。现在一个模型端到端搞定,延迟压到了秒级。

更狠的是全球评测。它在AudioBench、AV-Odyssey这些多模态基准里拿了215项SOTA,相当于别人还在分科考试,它直接拿了全科状元。但阿里自己倒是挺克制,发布会没喊"颠覆",只说了句"希望成为全模态基础模型的标准方案"——这话听着像谦虚,其实是把野心写进了脚注。

有个细节挺有意思:模型在处理视频时,会自主决定"看"和"听"的权重。比如画面里两个人在吵架但声音被音乐盖住,它会调高视觉注意力去读唇语和表情;如果是播客类内容,听觉通道就占主导。这种动态分配不是人工写的规则,是训练里自己长出来的策略。

我最后试了个刁钻场景:给它一段没有字幕的默片片段,问人物情绪变化。它答对了,还补了一句"从镜头语言看,导演在这里用了逐渐推近的特写来压迫观众"。

一位做视频剪辑的朋友听完我的测试,回了一句:"那以后是不是可以把粗剪丢给AI,我直接改第二版?"——这大概是产品经理最想听到的用户反馈。