打开网易新闻 查看精彩图片

做产品的人有个共识:用户要的不是功能,是"不用动脑"。Qwen3.5-Omni 今晚发布,阿里这次把"不用动脑"做成了系统级能力。

先讲最直观的。丢给它一段视频,它能吐出带时间戳的结构化笔记:谁说了什么、BGM第几秒变调、切了几次镜头、有没有敏感内容。不是摘要,是细到帧的 Caption。长视频从此变成可搜索的数据库——以前你得拖着进度条来回找,现在直接问就行。

打开网易新闻 查看精彩图片

更意外的是 Vibe Coding。没专门训练,模型自己"悟"出了根据画面写代码的能力。上传一个 UI 草图,它生成可运行的前端原型;描述一段交互逻辑,它吐出 Python 实现。创意验证从"看"到"做"的链路,被压缩成一步。这有点像早年 Photoshop 的"内容识别填充"——用户没提需求,但用完就回不去了。

语音交互的打磨更见细节。咳嗽和随口"嗯嗯"不会打断它,真正的插话能瞬间接住;你可以指令"小声点""开心一点",控制音色、语速、情绪。上传一段录音还能克隆专属音色,让 AI 用你的声音说话。这些功能单看都不新鲜,但拼在一起,对话的"真人感"会上一个台阶。

打开网易新闻 查看精彩图片

工具调用是另一块硬骨头。问"明天北京天气,推荐一家酒店",它能自主判断要不要联网、调什么工具、怎么组织答案。不是聊天,是办事。原生支持 WebSearch 和复杂 Function Call,意味着模型从"能回答"进化到"能执行"。

参数层面,256K 上下文、113 种语言、10 小时音频或 1 小时视频的处理能力,配合 215 项 SOTA 成绩——音频/音视频任务全面超过 Gemini-3.1 Pro。阿里百炼已开放 API,Plus、Flash、Light 三档尺寸按需选用。

一个值得玩味的细节:官方演示里提到,模型能判断视频是否有敏感内容。这个能力放在内容审核场景,相当于给平台装了个"自动风控员"。技术文档没展开讲,但懂行的人知道,这才是商业化最稳的落脚点。