打开网易新闻 查看精彩图片
3月30日,阿里发布千问新一代全模态大模型Qwen3.5-Omni,在音视频理解、识别、交互等215项任务中取得SOTA(性能最佳),超越Gemini-3.1 Pro,成为目前全球最强的全模态大模型之一。
打开网易新闻 查看精彩图片
新模型的能力清单像一份"感官增强包":音视频理解、实时交互、结构化描述生成,外加113种语言和方言识别。更意外的是,它还能玩音视频Vibe Coding——你可以把它理解为,模型不仅能听懂视频里的人在说什么,还能感知画面氛围,甚至按你的需求重新编排内容节奏。
打开网易新闻 查看精彩图片
目前阿里云百炼已上线Plus、Flash、Light三种API版本,覆盖短视频、直播、游戏、自媒体等场景。普通用户可在Qwen Chat免费体验,企业开发者调用价格为每百万Tokens输入不到0.8元,不到Gemini-3.1 Pro的十分之一。
有开发者在Qwen Chat测试后反馈,用方言指令让模型分析一段直播录屏,它能同时输出画面关键帧描述、主播话术结构和情绪转折点——而响应延迟控制在2秒内。这个细节或许解释了,为什么阿里敢把定价压到对手的零头:当模型足够"听得懂人话",调用频次上去了,薄利多销反而更划算。
热门跟贴