4月29日凌晨,阿里巴巴宣布开源新一代通义千问模型Qwen3(千问3),这款被官方称为“国内首个混合推理模型”的大模型,以参数量仅为DeepSeek-R1的1/3、成本下降70%、性能全面超越全球顶尖模型的亮眼表现,迅速登顶全球开源模型榜单。

01

国内首个混合推理模型

Qwen3首创的“混合推理模型”架构,将人类认知的“快思考”(直觉反应)与“慢思考”(深度推理)机制融入同一模型。当面对简单问答时,模型仅激活22B参数实现“秒级响应”,而遇到复杂数学推导、代码生成等任务时,则调用全量参数进行多步骤深度思考。

Qwen3提出的“快思考(直觉决策)”与“慢思考(深度推理)”集成架构,本质是对人类双系统思维的AI化重构。

·快思考层:基于轻量化子模型实现毫秒级响应,处理常识问答、简单决策等高并发场景;

·慢思考层:激活复杂推理模块,通过动态路由机制攻克数学证明、代码生成等需深度思考的任务;

·混合编排系统:实时评估任务复杂度,在能耗、时延、精度间实现动态平衡,相比传统单一架构推理效率提升40%以上(据阿里内部测试数据)。

这种“弹性计算”模式打破了“越大越好”的惯性思维,使模型在参数量减少67%的情况下,仍在MMLU、GSM8K等核心基准测试中超越DeepSeek-R1 5-8个百分点。

动态资源分配机制,使得其30B参数的MoE版本性能超越上代32B密集模型,实现10倍以上的性能杠杆。

对比DeepSeek-R1的671B总参数和37B激活参数,Qwen3以235B总参数、22B激活参数的“轻量级”设计,在AIME25奥数测评中斩获81.5分(超越DeepSeek-R1的79.8分),LiveCodeBench代码测试突破70分(超过Grok-3的68分)。

这种“四两拨千斤”的效果,源于其预训练数据量达36T的庞大规模,以及后训练阶段多轮强化学习的精准调优。

值得注意的是,Qwen3系列覆盖了从0.6B到235B的多样化参数规模,并支持高达128K的上下文窗口长度。这种“参数阶梯化”布局既满足了边缘设备(如手机、IoT)的轻量化需求,又为高性能计算场景提供了旗舰级模型选择。

而MoE架构的引入,进一步实现了“小而强大”的目标——例如,Qwen3-235B-A22B在仅激活9.4%参数的情况下,性能已超越全参数运行的上一代模型。

02

性能登顶

全面碾压全球顶尖模型

Qwen3的发布直接挑战了全球开源模型的竞争格局。根据官方披露,其在ChatBot Arena、GPQA、AIME24/25等权威评测中,性能全面超越DeepSeek-R1、OpenAI-o1、Grok-3等对手。

以逻辑推理能力为例,在Meta首席科学家杨立昆领衔设计的“最难评测榜”LiveBench中,Qwen3-32B的得分超过OpenAI-GPT-4.5preview和Google-Gemini2.0,展现出接近人类专家的复杂问题解决能力,而在BFCL(函数调用准确性测试)和LiveCodeBench(动态编程评测)中,Qwen3的代码纠错和API调用准确率领先行业标杆5%-8%。

同时,Qwen3的预训练数据量达36万亿token(Qwen2.5的2倍),涵盖119种语言和方言,通过Qwen2.5-Math、Qwen2.5-Coder等专家模型合成高质量数学与代码数据。

03

模型成本优化的“摩尔定律”正在形成

Qwen3的突破不仅在于性能提升,更在于商业化门槛的颠覆性降低。其旗舰版Qwen3-235B-A22B仅需4张H20显卡即可部署,显存占用仅为同类模型的1/3。相较于DeepSeek-R1需要数十张高端显卡的部署成本,Qwen3的硬件投入下降65-75%。

这种成本优势直接反映在API服务定价上,开发者可通过“思考预算”设置灵活控制推理资源消耗。

这种成本优势的底层逻辑,是阿里云在模型架构与工程实现的协同创新。

通过将非思考模式无缝整合到MoE架构中,Qwen3在保持2350亿总参数规模的同时,日常交互场景的实际算力消耗仅相当于220亿参数模型。这种设计思路与DeepSeek-R1追求极致参数规模(671B)形成鲜明对比,标志着中国AI产业从“暴力堆料”向“精准效能”的战略转型。

简单来说,Qwen3的突破性在于首次实现“性能提升+成本下降+开源开放”三位一体——

·训练成本:依托阿里自研的“分阶段知识蒸馏”技术,将千亿参数模型的知识迁移至300亿级架构,训练能耗降低60%;

·推理成本:混合架构使简单任务无需唤醒大参数模块,日常场景推理费用可控制在GPT-4 Turbo的1/20;

·生态杠杆:作为国内首个支持MoE(混合专家)结构的开源模型,开发者可自由拆解组合功能模块,大幅降低定制化成本。

这意味着AI应用的经济学模型被改写——当10亿美元级训练投入不再是入场券,中小企业将真正获得与大厂同台竞技的机会。

04

中美技术路线的再次分野

阿里此次开源8款Qwen3系列模型(含2款MoE和6款密集模型),允许免费商用的策略,直接冲击了DeepSeek-R1建立的开源生态优势。

此前DeepSeek虽开源了R1模型,但其660亿参数规模对中小开发者仍存在部署门槛。而Qwen3-0.6B到235B的全系列覆盖,特别是仅需手机端级别算力的0.6B版本,极大拓展了AI模型的落地场景。

值得关注的是,Qwen3与DeepSeek-R1的技术路线差异折射出中美AI竞赛的新态势:前者通过强化学习优化小模型性能(95.6分人类偏好对齐得分超越OpenAI-o1),后者则持续冲击参数边界。这种分化在硬件层面同样显著——Qwen3对国产H20显卡的深度适配,与DeepSeek依赖英伟达高端芯片形成对比,暗合中国算力自主化战略。

05

点评

AGI竞赛的下半场

尽管Qwen3在多项指标上实现突破,但行业仍存隐忧,一方面,混合推理模型对复杂任务的分层处理机制,可能在高阶逻辑链场景暴露系统误差;另一方面,开源生态的繁荣需要配套工具链支持,当前魔搭社区与HuggingFace的整合度尚待验证。阿里披露的未来计划——扩展数据规模至100T、延长上下文至百万token、融合多模态能力——预示着更激烈的AGI竞赛。

这场以小博大的技术革命,或许正在改写全球AI规则书。当参数规模不再是性能的唯一标尺,中国科技企业展现的架构创新与工程化能力,正在为后摩尔定律时代的智能计算开辟新航道。

欢迎通过邮局渠道订阅2025年《电脑报》

邮发代号:77-19

单价:8元,年价:400元

编辑|张毅

主编|黎坤

总编辑|吴新

爆料联系:cpcfan1874(微信)

壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者