来源:市场资讯
(来源:钛媒体APP)
大模型领域的“春晚”频率,已经快让从业者跟不上节奏了。
2月16日除夕夜,阿里巴巴开源全新一代大模型千问Qwen3.5-Plus,性能媲美Gemini 3 Pro,登顶全球最强开源模型,不论从哪个方面,都可以说是给大模型行业的蛇年画上一个句号。
Qwen3.5-Plus总参数3970亿,但实际运行时的激活参数仅为170亿,性能就超过了万亿参数的Qwen3-Max模型,算力部署成本降低60%,推理速度提升8倍,更别提还是一个原生多模态模型,Agent能力大幅加强,API价格每百万Token低至0.8元。
更好、更快,还更省钱了,这当然不是千问独有的特性,但千问是毫无争议的标准答案,知道怎么做和做出来,是两回事——大模型就是一帮这个星球上最聪明的大脑,在做最复杂的实现。
稍早时间,字节跳动、MiniMax、智谱等国内厂商发布了自己的大模型,GPT-5.3 Codex与Opus 4.6也先后亮相,两种发布风格其实挺有意思。
在硅谷,OpenAI或Anthropic还习惯于扮演科技时代的预言者,他们的每一次更新都透着一种试图定义文明走向的宏大叙事感;而在国内,以阿里Qwen为典型代表,更像是一种极其务实且凶猛的工业扩张,满眼都是怎么让AI应用到具体场景。
聊到应用,当然就到了中国企业的舒适区,这也是为何春节AI大战,众多应用被推到台前,与以往不同的是,过去是有了模型,摸索能做什么应用,现在是应用场景的需求反过来去推动模型的发展。
在AI大航海时代,只有那些更聪明的船长,那些能以更低能耗航行更远距离的船只,才能最终抵达前人未至的新大陆。
变“小”的千问,怎么还变强了?
过去两年,硅谷乃至全球的AI共识一直笼罩在Scaling Law的既定路基下,更多的算力、更大的参数、更多的数据,等于更好的大模型。
但这种“大干快上”的扩张正在撞上两堵无形的墙,一堵是Transformer架构随序列长度增加而呈平方级爆炸的计算复杂度,另一堵则是让无数企业望而却步的推理成本。
这很容易让人联想到CPU时代的安迪-比尔定理(Andy and Bill’ s Law),硬件提升的性能,迅速被更吃资源的软件消耗殆尽,在大模型时代,架构迭代和算法优化释放出的算力红利,被参数量的通胀和上下文长度的堆叠耗殆尽。
如果这件事注定无法避免,那么千问3.5就让每一丝算力都能发挥出更大的价值。
传统的Transformer架构虽然强大,但它在处理超长文本时极其“重”,每多读一行字,内存和算力的负担就成倍增加。
为了打破这个僵局,业界曾尝试过各种路径,比如稀疏注意力、线性注意力、状态空间模型等,但往往陷入“性能提升则精度下降”的二律背反,要么保住效率,牺牲精度;要么保住性能,成本依旧高昂;要么提出全新架构,却难以融入现有大模型体系。
千问3.5走出了一条“大道至简”的道路,其性能跃升的背后,是对Transformer经典架构的重大创新突破。千问团队自研的门控技术成果,曾斩获全球AI顶会2025 NeurIPS最佳论文。
这不是一篇理论性质的论文,该前沿技术已融入到千问3.5创新的混合架构中去,团队结合线性注意力机制与稀疏混合专家MoE模型架构,实现了397B总参数激活仅17B的极致模型效率。
如果用通俗的话来理解,它并不提前裁剪信息,而是在注意力计算真正发生之前,引入一个可学习的“门控”(Gated Attention),先对信息做一次动态评估,再决定哪些部分用完整算力精算,哪些部分用更低成本处理。
从架构层面看,它还补上了MoE长期存在的一块短板。过去的MoE虽然已经实现了参数层面的稀疏激活,但注意力计算本身依然是全量执行,真正最重的那部分开销并没有被触动。
Gated Attention则把“是否值得计算”这件事直接前移到了注意力内部,让注意力本身也具备了可选择计算路径的能力。这意味着稀疏化第一次不只是发生在前馈网络阶段,而是深入到了Transformer最核心的计算单元里。
也正因为如此,它能够同时做到过去行业很难兼得的三件事:推理更快、成本更低,同时性能上限不受损。
原生多模态,牵一发而动全身
在当前的大模型赛道上,多模态已经成为新的焦点,但大多数现有方案仍停留在“模态叠罗汉、参数堆积”的老路上,试图把图像、文本、视频、表格等各种模态直接拼在一起,再用海量参数去支撑这种叠加,以求在Benchmark上刷出亮眼成绩。
然而,这种方式存在明显的局限,智力水平受限,推理效率低下,原因也很简单,每增加一个模态,计算量和内存需求呈指数级上升,模型的大脑被迫同时激活更多部分,但推理能力却没有成比例提升。
千问3.5是千问系列首个原生多模态模型,性能超过上一代旗舰模型——万亿参数的Qwen3-Max,但参数量却不到其40%,这背后的技术突破,值得深挖。
原生多模态的难点,在于让模型同时理解不同类型信息、建立模态间逻辑,并高效推理。
文字、图像、视频、音频各自的表达方式差异巨大,要在同一空间中理解它们的关系,本身就是技术挑战。更棘手的是跨模态对齐,图像与文字、视频与字幕、图表与说明的逻辑对应,如果处理不好,模型就可能“睁眼瞎”。
数据稀缺和训练成本也是瓶颈。高质量多模态标注难得,训练中,图像编码器、视频序列处理器和跨模态注意力层让算力消耗大,梯度易不稳,推理效率低下。
长上下文、多轮推理等任务,更要求模型动态调度注意力与算力,否则消耗呈指数级增长而理解能力提升有限。总之,简单堆模态或扩参数无法解决这一核心瓶颈。
如前所述,千问3.5的技术创新紧密耦合且相互增强,门控注意力让模型在处理长文本和多模态信息时能按需分配算力,保持推理效率与智力上限;线性注意力与稀疏MoE架构进一步降低长上下文的计算成本,让超大模型在实际使用中也能高效运行;原生多模态训练则为模型张开“眼睛”,让文字、图像、视频等信息在同一个认知空间里自然融合,同时强化推理、任务规划和空间理解能力。
这些创新并非孤立存在:高效的计算架构保证了多模态训练可行,跨模态能力反过来又推动注意力机制的优化,推理效率和认知能力相辅相成。
正因为如此,千问3.5才能在文本理解、视觉分析、视频理解、Agent执行、代码生成等多维任务中表现均衡而突出,形成一套完整的、可落地的智能体系。
千问3.5在MMLU-Pro认知能力评测中得分87.8分,超越GPT-5.2;在博士级难题GPQA测评中斩获88.4分,高于Claude 4.5;在指令遵循IFBench以76.5分刷新所有模型纪录;而在通用Agent评测BFCL-V4、搜索Agent评测Browsecomp等基准中,千问3.5表现均超越Gemini 3 Pro。
原生多模态训练,也带来千问3.5的视觉能力飞跃:在多模态推理(MathVison)、通用视觉问答VQA(RealWorldQA)、文本识别和文件理解(CC_OCR)、空间智能(RefCOCO-avg)、视频理解(MLVU)等众多权威评测中,千问3.5均斩获最佳性能。
大模型时代,阿里的阳谋
技术层面的紧耦合,其实是战略意志的体现,阿里巴巴的芯片、大模型,云基础设施等,最终是要为阿里巴巴的未来价值而服务。
就像云计算时代决定格局的不是CPU主频,而是虚拟化技术;移动互联网时代决定格局的不是带宽峰值,而是分发效率;到了大模型时代,真正决定应用爆发速度的,也不会是模型规模,更可能是每一次推理被调用的成本。
阿里巴巴比更多人更早更深刻地看到了这一点,自此出发,就能理解阿里巴巴的全盘布局。
在应用层面,1月15日,千问App发布全球首个消费级AI购物Agent。春节活动期间,全国超过1.3亿人第一次体验AI购物,说了50亿次“千问帮我”,千问一跃成为国民级AI助手。在全球首次实现大规模真实世界任务执行和商业化验证。
作为千问App的基座模型,千问3.5的Agent能力也大幅增强,实现了从Agent框架到Agent应用的新突破,可自主操作手机与电脑,高效完成日常任务,在移动端支持更多主流APP与指令,在PC端可处理更复杂的多步骤操作,如跨应用数据整理、自动化流程执行等,显著提升操作效率。
同时,千问团队构建了一个可扩展的Agent异步强化学习框架,端到端可加速3到5倍,并将基于插件的智能体Agent支持扩展至百万级规模,将进一步打开大模型在工作和生活中帮人办事的想象空间。
另一方面,阿里不仅持续推出SOTA级模型,同时通过开源开放策略,让任何人都能免费使用。这使千问迅速成为全球最受欢迎的开源模型,也为创新提供了肥沃土壤,激发了大量新的应用与创意。
目前,千问模型的开源数量超400个,衍生模型数量突破20万个,下载量突破10亿次,远超美国的Llama,包括李飞飞团队、爱彼迎等全球公司和机构都在使用千问模型。
规模化必然导致边际成本的降低,这是阿里云基础设施的强项。依托阿里云与平头哥自研芯片的支持,千问的推理效率得以进一步提升,更好满足企业级应用需求。模型、芯片与云端资源的深度耦合,实现了“1+1+1>3”的协同效应,不仅充分释放了芯片算力潜力和集群效率,也显著提高了模型训练与推理的整体性能。
例如,真武芯片针对以Qwen3为代表的主流MoE架构模型做了大量优化,可满足千问大模型对大规模计算的需求。得益于模型、芯片以及云的协同创新,千问3.5的价格进一步探底,API每百万Token输入低至0.8元,是同等性能Gemini-3-pro的1/18。
这样的策略不仅让千问在企业端备受欢迎,也让阿里云再次进入高速增长期。沙利文数据显示,千问在中国企业级大模型调用市场中位居第一,并成为阿里云新增需求的主要驱动力,带动计算、存储及数据库等基础资源消耗的增长。
根据市场调研机构Omdia数据,2025年第三季度,中国大陆云基础设施服务市场规模达到134亿美元,同比增长24%,市场已连续第二个季度实现20%以上的同比增长,阿里云在中国云基础设施服务市场的份额则提升至36%,AI相关收入已连续九个季度实现三位数同比增长,继续保持市场领先地位且优势进一步扩大。
千问3.5这一轮技术跃迁的价值,更像是阿里巴巴一场早有预期的“阳谋”,不只是把性能做上去,当长上下文、多轮推理、Agent工作流开始变成默认配置时,模型才会真正变成这个时代的基础设施,技术与商业在这里协同,算力与认知在这里形成闭环。
在大模型时代,阿里玩的是一盘既看得见的技术棋,又布局深远的商业棋。
(作者|张帅,编辑|盖虹达)
热门跟贴