阿里把113种方言塞进一个模型，价格却砍到Gemini的1/10

全栈遛狗员

2026-03-31 08:18 ·北京

3月30日，阿里发布千问新一代全模态大模型Qwen3.5-Omni，在音视频理解、识别、交互等215项任务中取得SOTA（性能最佳），超越Gemini-3.1 Pro，成为目前全球最强的全模态大模型之一。

新模型的能力清单像一份"感官增强包"：音视频理解、实时交互、结构化描述生成，外加113种语言和方言识别。更意外的是，它还能玩音视频Vibe Coding——你可以把它理解为，模型不仅能听懂视频里的人在说什么，还能感知画面氛围，甚至按你的需求重新编排内容节奏。

目前阿里云百炼已上线Plus、Flash、Light三种API版本，覆盖短视频、直播、游戏、自媒体等场景。普通用户可在Qwen Chat免费体验，企业开发者调用价格为每百万Tokens输入不到0.8元，不到Gemini-3.1 Pro的十分之一。

有开发者在Qwen Chat测试后反馈，用方言指令让模型分析一段直播录屏，它能同时输出画面关键帧描述、主播话术结构和情绪转折点——而响应延迟控制在2秒内。这个细节或许解释了，为什么阿里敢把定价压到对手的零头：当模型足够"听得懂人话"，调用频次上去了，薄利多销反而更划算。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴