阿里把10小时音频塞进一个模型，Gemini刚赢的局又被翻了|gemini|知名企业|阿里巴巴集团|音色

做产品的人有个共识：用户要的不是功能，是"不用动脑"。Qwen3.5-Omni 今晚发布，阿里这次把"不用动脑"做成了系统级能力。

先讲最直观的。丢给它一段视频，它能吐出带时间戳的结构化笔记：谁说了什么、BGM第几秒变调、切了几次镜头、有没有敏感内容。不是摘要，是细到帧的 Caption。长视频从此变成可搜索的数据库——以前你得拖着进度条来回找，现在直接问就行。

更意外的是 Vibe Coding。没专门训练，模型自己"悟"出了根据画面写代码的能力。上传一个 UI 草图，它生成可运行的前端原型；描述一段交互逻辑，它吐出 Python 实现。创意验证从"看"到"做"的链路，被压缩成一步。这有点像早年 Photoshop 的"内容识别填充"——用户没提需求，但用完就回不去了。

语音交互的打磨更见细节。咳嗽和随口"嗯嗯"不会打断它，真正的插话能瞬间接住；你可以指令"小声点""开心一点"，控制音色、语速、情绪。上传一段录音还能克隆专属音色，让 AI 用你的声音说话。这些功能单看都不新鲜，但拼在一起，对话的"真人感"会上一个台阶。