很多人大概不知道通义Qwen的地位。苹果公司已选定Qwen作为其在中国市场的大模型技术合作伙伴,这标志着Qwen在商业应用领域取得重要突破。

与此同时,学术界也展现出对Qwen的青睐。李飞飞团队正基于Qwen架构开发具备超低推理成本的AI模型,通用智能体平台Manus已将其作为核心决策引擎。而最被大家熟悉的DeepSeekR1,其小尺寸模型的训练也用到了Qwen。

实际上,我和身边多位朋友都有聊过,国外最受追捧的中国大模型,一个是DeepSeek,另一个就是通义Qwen了。

尽管Qwen在技术社区持续引发关注,但在国内的公众感知度常常与之不相称。开发者社群中流传着"大模型界汪峰"的戏称,意思是其技术实力常被行业热点事件暂时遮蔽,几次重大版本发布均遭遇其他科技头条的"截胡"现象。

这种技术影响力与商业声量的错位,恰恰反映出Qwen作为底层基础模型,在一个特殊时期技术内核上的坚定。

言归正传。从主流学术基准的权威数据看,这次Qwen3对DeepSeek R1实现了全方位压制,这里的"全方位"并非夸张表述,而是实打实的数学、推理与代码三大核心领域的集体突破。

尤其值得关注的是其代码生成能力,在LiveCodeBench和Codeforces双榜中不仅甩开所有竞品,甚至将当前业界最强的Gemini2.5-Pro也拉入了追赶行列。

具体来看,Qwen3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强。在奥数水平的AIME25测评中,Qwen3斩获81.5分,刷新开源纪录。在考察代码能力的LiveCodeBench评测中,Qwen3突破70分大关,表现甚至超过Grok3。在评估模型人类偏好对齐的ArenaHard测评中,Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1。

而且Qwen3成本很低,旗舰模型235B参数部署成本只要DeepSeek R1的三分之一。

这些硬核数据背后,是Qwen3通过动态参数激活架构(MoE)实现的质变。在2350亿总参数中精准调用220亿激活参数,既保证了算力密度,又将硬件成本压缩至行业平均水平的1/3。

如今它已不只是"全球最强开源模型"的称号持有者,更是重新定义了大模型性能评估的标准坐标系。

01

再继续说点干货,本次Qwen的发布包含MoE 和Dense 两种架构。

MoE:有30B(3B激活)和235B(22B激活)两种。Dense:包含0.6B、1.7B、4B、8B、14B 和32B 这六款。

模型的详细参数

旗舰模型是Qwen3-235B-A22B,后缀235B指的是模型大小2350亿参数,A22B指的是激活参数220亿。

如果你以为大模型的世界只有“参数越大越强”的套路,那Qwen3可能会让你重新认识什么叫“小而精”。

作为阿里巴巴通义千问系列的最新一代模型,Qwen3在性能、成本和灵活性上玩出了新花样,甚至可以用“降维打击”来形容它对前代模型的碾压,不是夸张,而是实打实的用数据说话。

先说说Qwen3为什么参数“瘦身”,反而更聪明。

Qwen3的旗舰版Qwen3-235B-A22B总参数高达2350亿,但激活参数仅需220亿。换句话说,它就像一个学霸,考试时只翻220页笔记就能完胜对手。相比之下,Qwen2.5-72B-Instruct这类前辈,可得靠“死记硬背”720亿参数才能勉强跟上节奏。

更绝的是,Qwen3的“小型号”也藏着玄机。比如Qwen3-4B这个迷你模型,居然能在代码生成、数学推理等任务中匹敌Qwen2.5-72B-Instruct的性能。

对比来看,Qwen3-4B VS Qwen2.5-72B-Instruct:参数量缩小18倍,性能不降反升。Qwen3-30B-A3B VS Qwen2.5-32B:激活参数仅为10%,但性能直接跨级超越。

这次Qwen3最被业内称道的是,引入了思考模式和非思考模式,类似人类的大脑高速切换状态。

思考模式,适合解决复杂问题,比如写论文、做数学题,模型会一步步推理,像考试时反复演算一样细致。非思考模式,用于简单任务,比如聊天、查天气,直接给出答案,省电又高效。

举个例子,如果你问Qwen3:请证明费马大定理。它会启动学霸模式,用长思维链逐步推导。但如果你问:今天北京天气如何?它会立刻切换成快问快答,省下你宝贵的等待时间。

在不同思考深度下,模型的得分情况

我们都知道,DeepSeek R1就是深度思考,关闭R1选项,它就用v3来给你回答。 但是Qwen3把这两个功能融为了一体,方便很多。

另一个亮点,是Agent能力的增强。

如今,Agent已经是大模型领域重点关注的能力之一,尤其是最近MCP模型上下文协议的引入,更是大大增强了Agent 的适用性和灵活性,拓宽了应用场景。

这次Qwen3模型的Agent和代码能力得到增强,包括加强了对MCP 的支持。我们可以看下面一个示例(提取QwenLM 库的markdown 内容,然后绘制显示项目stars 数量的条形图),展示了Qwen3 如何思考并与环境进行交互:

 阿里Qwen3深夜发布,能终结汪峰式尴尬吗
打开网易新闻 查看更多视频
阿里Qwen3深夜发布,能终结汪峰式尴尬吗

很多人可能更关心这个模型是怎么训出来的。

Qwen3模型训练数据体量较前代实现指数级增长,从Qwen2.5的18万亿token扩容至36万亿token,覆盖119种语言及方言体系。

数据采集采用多源融合策略:一方面通过全网爬取获取泛化文本,另一方面部

署Qwen2.5-VL视觉语言模型实现PDF文档的深度解析,同时结合Qwen2.5基础模型进行多轮数据精炼,确保信息质量。

针对数学与编程垂直领域,通义研发团队构建了专用数据生成管线。Qwen2.5-Math:生成复杂公式推导、几何证明等数学专项训练数据。Qwen2.5-Coder:产出代码注释、算法实现等编程领域合成语料。

通过这种领域自适应的数据增强策略,显著提升模型在专业场景的推理精度。

三阶段渐进式预训练

1.基础能力构建阶段
在30万亿token数据池上进行基础预训练,采用4K固定上下文窗口,重点培养模型的语言组织能力与常识推理基础。此阶段相当于构建认知底座,使模型掌握自然语言的底层表达规律。

2.专业能力深化阶段
新增5万亿token专项训练数据,聚焦STEM学科(科学/技术/工程/数学)与编程任务。通过高密度专业语料注入,实现复杂逻辑推演能力的跨越式提升,特别强化代码生成、科学计算等场景表现。

3.长程理解突破阶段
引入高质量长文本语料库,将上下文处理能力从4K扩展至32K,使模型具备处理学术长文、多轮技术对话等超长文本的能力。该阶段突破了传统模型的记忆限制,可完整理解万字量级的专业文档。

这种分层训练架构既保证了基础能力的广度,又通过专项强化实现了深度能力的突破,最终构建出兼具通用性与专业性的新一代语言大模型。

如果说Qwen2开源时还带着点“技术保留”,Qwen3则彻底放飞自我。2款MoE模型+6款Dense模型全部开源,连协议都换成Apache 2.0(商用随便薅!)。反观Llama3,至今还在“开源但不可商用”的扭捏状态。

02

斯坦福《2025人工智能指数报告》显示,通义千问有六款模型入选全球前三,技术贡献位列中国第一,全球第三,仅次于谷歌和OpenAI。

增加模型在海外的部署,也是大厂在AI方面的竞赛之一。开源模型成为技术出海的重要抓手,DeepSeek推出的MoE架构模型,通过动态路由技术将推理成本降至GPT-4的17%,吸引全球3.6万开发者参与优化。百度文心一言、阿里Qwen等模型也在GitHub开源基础版本,形成“开源获客+闭源变现”的双轨模式。

今天上午和一个做算力的资深业内人士聊,他说:“各大厂把模型做的越来越快,技术上没有本质上的变革,目的是在海外扩大自己的模型部署,不过就提升模型的能力方面,对大厂来说也是利好。”

他认为,阿里这一次发布8个模型,是因为算力在不断提升,大模型就像数学原理上的发展,数学原理发展的越好未必能直接带来效益,但能带来AI应用方面的增长,AI应用全部依赖于大模型的基础,没有大模型的发展,应用很难实现突破。

相较于Llama 4系列模型获得的社区反响,Qwen系列已凭借扎实的数据支撑确立其全球开源领域的领先地位。作为目前全球规模最大的开源模型体系,阿里通义已向公众开放200余个预训练模型,累计下载量突破3亿次(综合 Hugging Face、魔搭等社区数据)。

更值得关注的是,基于Qwen核心架构衍生的定制化模型已超过10万个,这一数字不仅超越了Llama系列,更标志着Qwen生态已成长为全球最活跃的开源模型矩阵。这种指数级增长,印证了中国开源大模型在技术创新与社区共建方面的双重突破。

自通义千问自2023年首次亮相以来,几乎以惊人的迭代速度和技术突破,从一款基础语言模型逐步成长为横跨多模态、全生态的AI平台。这一历程不仅展现了阿里巴巴在大模型领域的布局野心,也折射出国产人工智能技术在全球竞争中的崛起轨迹。

2023年4月,通义千问1.0作为阿里巴巴推出的首款超大规模语言模型,正式开启探索之路。该版本初步实现了中文、英文等多语言文本生成与对话交互能力,并通过阿里云峰会展开定向企业测试。

尽管此时其整体技术成熟度仍落后于国际头部模型(如GPT-3.5),但已在国内首批通用型大模型中占据先机,与百度文心一言、腾讯混元形成早期竞争格局。

同年10月31日发布的通义千问2.0标志着性能的飞跃。参数规模突破千亿级,复杂指令理解、文学创作与数学推理能力显著提升,并推出8大垂直领域子模型(如编程助手通义灵码、法律助手通义法睿)。

App端向个人用户开放后,其综合性能接近GPT-3.5,超越Meta Llama-2-70B,成为国内首个实现工具化链路的企业级大模型平台。

2024年4月至5月,Qwen1.5系列的开源策略进一步巩固了其行业地位。覆盖5亿至1100亿参数的全尺寸模型矩阵满足多样化部署需求,CodeQwen1.5-7B成为智能编码标杆,下载量超700万次。

2024年5月9日,通义千问2.5在多模态任务上实现质的突破。深度推理能力优化后,逻辑与数学题解答准确率大幅提升,旗舰模型Qwen-VL-Max性能超越Gemini Ultra和GPT-4V,成为多模态领域的标杆产品。同年8月30日,视觉语言模型Qwen2-VL-72B重新定义视频分析边界。

今年3月27日,Qwen2.5-Omni开创端到端全模态处理范式。文本、图像、音频、视频同步处理能力实现人机交互体验革新,实时语音合成与情绪识别功能适配智能家居、车载系统,轻量化设计支持手机端高效部署,对标OpenAI GPT-4o和Google Gemini 2.5 Pro,引领下一代交互体验。

直到这次发布Qwen3,正式成长为从初代通用模型到全球开源领袖,通义千问的演进轨迹映射出中国AI力量的成长路径。

你已经尝鲜Qwen3了吗,感觉怎么样,欢迎评论区交流。