打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

作者:小白

刚刚,大模型战局再次变天。

没有漫长的预热,阿里直接甩出王炸:通义千问Qwen3.5-Plus正式发布。

这一次,不仅仅是版本号的简单迭代,而是底层架构的彻底重构。与以往通过“视觉编码器+语言模型”拼接的缝合怪不同,千问3.5实现了真正的原生多模态(Native Multimodal)代际跃迁。

它不再是一个仅仅读过万卷书的“瞎子”,而是一个睁开眼看世界的全能天才。

数据更是吓人:在不到40%的参数量下,它硬是跑出了超过万亿参数基座Qwen3-Max的顶尖性能。在MMLU-Pro、GPQA等硬核评测中,直接按着GPT-5.2和Claude 4.5摩擦。更离谱的是,借助NeurIPS 2025最佳论文同款的门控技术,这颗397B的巨兽在推理时仅需激活17B参数,快得像个轻量级模型。

从纯文本到全模态,从聊天机器到能操控手机电脑的超级Agent,阿里这次不仅要卷死同行,还要重新定义什么才是“下一代大模型”。

一、 性能霸榜,千问3.5登顶全球第一梯队

这一代千问最核心的变化,在于“原生”二字。

回顾千问3,它还是在纯文本Tokens上进行预训练,视觉能力更多是“外挂”上去的。而千问3.5则是从零开始,基于视觉和文本混合Token进行预训练。这意味着模型在学习“苹果”这个概念时,不再只是通过文字描述,而是同时看到了红色的圆形物体、咬下去的清脆声音。

为了喂饱这个原生多模态大脑,阿里团队大幅新增了中英文、多语言、STEM(科学、技术、工程、数学)和复杂的推理数据。这种高密度的世界知识注入,让千问3.5的逻辑推理能力发生了质变。

直接看成绩单,全是硬碰硬的权威基准:

在考查极高难度知识推理的MMLU-Pro评测中,千问3.5拿下87.8分。这是什么概念?它已经超越了此前公认的霸主GPT-5.2。

在堪称“博士资格考”的GPQA测评中,千问3.5斩获88.4分,将Claude 4.5甩在身后。要知道,这个榜单的每一分提升,通常都需要数百亿参数的堆砌,而阿里用更巧的方法做到了。

打开网易新闻 查看精彩图片

指令遵循能力更是刷新纪录,在IFBench中拿到76.5分,意味着它不仅听得懂人话,还能极其精准地执行那些繁琐、复杂的各种约束条件,不再出现“听懂了但做不对”的幻觉。

原生多模态的优势在视觉任务上展现得淋漓尽致。

以往的模型在处理复杂数学图表或空间定位时往往会“眼花”,但千问3.5在MathVision(多模态推理)、RealWorldQA(通用视觉问答)以及CC_OCR(文本识别)等评测中全部斩获最佳性能。

特别是MLVU视频理解测试,千问3.5不再是“抽帧看图”,而是真正理解了视频中的时间流逝和因果关系。

二、 架构突变,397B参数跑出17B的极致效率

千问3.5性能暴涨的背后,不是单纯的“大力出奇迹”,而是对Transformer经典架构动了手术。

这就不得不提那个含金量极高的技术彩蛋:阿里团队自研的门控技术。这项成果刚刚斩获全球AI顶会2025 NeurIPS最佳论文,转头就被直接融入了千问3.5的血液里。

传统的MoE(混合专家模型)虽然快,但在超大规模下容易出现专家负载不均的问题。阿里团队结合了线性注意力机制(Linear Attention)与稀疏混合专家MoE架构,搞出了一套创新的混合架构。

这个架构最恐怖的地方在于极高的参数激活比

千问3.5的总参数量高达397B(3970亿),是一个不折不扣的庞然大物。但在实际推理时,它每次只需要激活17B参数。

这意味着用户享受着近4000亿参数模型带来的顶级智商,却只消耗了运行一个中型模型的算力成本。这种极致的“降本增效”,让它在Qwen3-Max面前也不落下风,甚至以不到40%的算力开销不仅追平了性能,还带来了推理速度的指数级飞跃。

长文本推理效率的提升更是肉眼可见:

在常用的32K上下文场景中,千问3.5的推理吞吐量直接提升了8.6倍

当上下文拉长到256K这种超长篇幅(比如扔进去几本小说或财报)时,Qwen3.5的优势更加夸张,吞吐量最大提升至19倍

过去处理长文档需要等上一杯咖啡的时间,现在几乎是秒出。对于需要处理海量文档的企业级应用来说,这简直是降维打击。

打开网易新闻 查看精彩图片

三、 Agent进化,从“对话者”变身“执行者”

如果说推理能力是大模型的大脑,那么Agent能力就是它的手脚。千问3.5在这一点上走得更远,它不再满足于陪你聊天,而是要帮你干活

在通用Agent评测BFCL-V4和搜索Agent评测Browsecomp中,千问3.5的表现均超越了Gemini 3 Pro和GPT-5.2。这说明它在使用工具、调用API这方面,已经比人类更熟练。

基于这种顶级的视觉和决策能力,阿里打通了从Agent框架到Agent应用的“最后一公里”。

千问3.5现在可以自主操作手机与电脑

这不是简单的语音助手,而是真正像人一样去点击屏幕、拖拽文件。在移动端,它支持主流APP的复杂指令,比如“帮我点一杯以前常喝的拿铁,送到公司”;在PC端,它能处理跨应用的数据整理,比如“把微信里的表格下载下来,提取数据填到Excel里,再发邮件给老板”。

为了支撑这种大规模的智能体协作,千问团队构建了一个可扩展的Agent异步强化学习框架

这个框架解决了以往Agent训练慢、协同难的问题,端到端速度加速了3到5倍。更重要的是,它将插件式智能体Agent的支持扩展到了百万级规模

未来,无论是写代码、订机票,还是复杂的自动化工作流,千问3.5都能通过调用这百万级的插件库,精准匹配最合适的工具来完成任务。

阿里这次,确实是不讲武德。

当同行还在卷参数量、卷榜单分数时,千问3.5直接把战场拉到了“原生多模态”和“极致效率”的维度。更强的性能、更低的成本、更落地的Agent能力,这套组合拳下来,国产大模型的天花板,又被狠狠向上顶了一大截。