阿里Qwen3深夜发布，能终结汪峰式尴尬吗|模态|汪峰|深度思考模型|编程|阿里qwen3

很多人大概不知道通义Qwen的地位。苹果公司已选定Qwen作为其在中国市场的大模型技术合作伙伴，这标志着Qwen在商业应用领域取得重要突破。

与此同时，学术界也展现出对Qwen的青睐。李飞飞团队正基于Qwen架构开发具备超低推理成本的AI模型，通用智能体平台Manus已将其作为核心决策引擎。而最被大家熟悉的DeepSeekR1，其小尺寸模型的训练也用到了Qwen。

实际上，我和身边多位朋友都有聊过，国外最受追捧的中国大模型，一个是DeepSeek，另一个就是通义Qwen了。

尽管Qwen在技术社区持续引发关注，但在国内的公众感知度常常与之不相称。开发者社群中流传着"大模型界汪峰"的戏称，意思是其技术实力常被行业热点事件暂时遮蔽，几次重大版本发布均遭遇其他科技头条的"截胡"现象。

这种技术影响力与商业声量的错位，恰恰反映出Qwen作为底层基础模型，在一个特殊时期技术内核上的坚定。

言归正传。从主流学术基准的权威数据看，这次Qwen3对DeepSeek R1实现了全方位压制，这里的"全方位"并非夸张表述，而是实打实的数学、推理与代码三大核心领域的集体突破。

尤其值得关注的是其代码生成能力，在LiveCodeBench和Codeforces双榜中不仅甩开所有竞品，甚至将当前业界最强的Gemini2.5-Pro也拉入了追赶行列。

具体来看，Qwen3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强。在奥数水平的AIME25测评中，Qwen3斩获81.5分，刷新开源纪录。在考察代码能力的LiveCodeBench评测中，Qwen3突破70分大关，表现甚至超过Grok3。在评估模型人类偏好对齐的ArenaHard测评中，Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1。

而且Qwen3成本很低，旗舰模型235B参数部署成本只要DeepSeek R1的三分之一。

这些硬核数据背后，是Qwen3通过动态参数激活架构（MoE）实现的质变。在2350亿总参数中精准调用220亿激活参数，既保证了算力密度，又将硬件成本压缩至行业平均水平的1/3。

如今它已不只是"全球最强开源模型"的称号持有者，更是重新定义了大模型性能评估的标准坐标系。

再继续说点干货，本次Qwen的发布包含MoE 和Dense 两种架构。

MoE：有30B（3B激活）和235B（22B激活）两种。Dense：包含0.6B、1.7B、4B、8B、14B 和32B 这六款。

模型的详细参数

旗舰模型是Qwen3-235B-A22B，后缀235B指的是模型大小2350亿参数，A22B指的是激活参数220亿。

如果你以为大模型的世界只有“参数越大越强”的套路，那Qwen3可能会让你重新认识什么叫“小而精”。

作为阿里巴巴通义千问系列的最新一代模型，Qwen3在性能、成本和灵活性上玩出了新花样，甚至可以用“降维打击”来形容它对前代模型的碾压，不是夸张，而是实打实的用数据说话。

先说说Qwen3为什么参数“瘦身”，反而更聪明。

Qwen3的旗舰版Qwen3-235B-A22B总参数高达2350亿，但激活参数仅需220亿。换句话说，它就像一个学霸，考试时只翻220页笔记就能完胜对手。相比之下，Qwen2.5-72B-Instruct这类前辈，可得靠“死记硬背”720亿参数才能勉强跟上节奏。

更绝的是，Qwen3的“小型号”也藏着玄机。比如Qwen3-4B这个迷你模型，居然能在代码生成、数学推理等任务中匹敌Qwen2.5-72B-Instruct的性能。

对比来看，Qwen3-4B VS Qwen2.5-72B-Instruct：参数量缩小18倍，性能不降反升。Qwen3-30B-A3B VS Qwen2.5-32B：激活参数仅为10%，但性能直接跨级超越。

这次Qwen3最被业内称道的是，引入了思考模式和非思考模式，类似人类的大脑高速切换状态。

思考模式，适合解决复杂问题，比如写论文、做数学题，模型会一步步推理，像考试时反复演算一样细致。非思考模式，用于简单任务，比如聊天、查天气，直接给出答案，省电又高效。

举个例子，如果你问Qwen3：请证明费马大定理。它会启动学霸模式，用长思维链逐步推导。但如果你问：今天北京天气如何？它会立刻切换成快问快答，省下你宝贵的等待时间。

在不同思考深度下，模型的得分情况

我们都知道，DeepSeek R1就是深度思考，关闭R1选项，它就用v3来给你回答。但是Qwen3把这两个功能融为了一体，方便很多。

另一个亮点，是Agent能力的增强。

如今，Agent已经是大模型领域重点关注的能力之一，尤其是最近MCP模型上下文协议的引入，更是大大增强了Agent 的适用性和灵活性，拓宽了应用场景。

这次Qwen3模型的Agent和代码能力得到增强，包括加强了对MCP 的支持。我们可以看下面一个示例（提取QwenLM 库的markdown 内容，然后绘制显示项目stars 数量的条形图），展示了Qwen3 如何思考并与环境进行交互：

很多人可能更关心这个模型是怎么训出来的。

Qwen3模型训练数据体量较前代实现指数级增长，从Qwen2.5的18万亿token扩容至36万亿token，覆盖119种语言及方言体系。

数据采集采用多源融合策略：一方面通过全网爬取获取泛化文本，另一方面部

署Qwen2.5-VL视觉语言模型实现PDF文档的深度解析，同时结合Qwen2.5基础模型进行多轮数据精炼，确保信息质量。

针对数学与编程垂直领域，通义研发团队构建了专用数据生成管线。Qwen2.5-Math：生成复杂公式推导、几何证明等数学专项训练数据。Qwen2.5-Coder：产出代码注释、算法实现等编程领域合成语料。

通过这种领域自适应的数据增强策略，显著提升模型在专业场景的推理精度。

三阶段渐进式预训练

1.基础能力构建阶段
在30万亿token数据池上进行基础预训练，采用4K固定上下文窗口，重点培养模型的语言组织能力与常识推理基础。此阶段相当于构建认知底座，使模型掌握自然语言的底层表达规律。

2.专业能力深化阶段
新增5万亿token专项训练数据，聚焦STEM学科（科学/技术/工程/数学）与编程任务。通过高密度专业语料注入，实现复杂逻辑推演能力的跨越式提升，特别强化代码生成、科学计算等场景表现。

3.长程理解突破阶段
引入高质量长文本语料库，将上下文处理能力从4K扩展至32K，使模型具备处理学术长文、多轮技术对话等超长文本的能力。该阶段突破了传统模型的记忆限制，可完整理解万字量级的专业文档。

这种分层训练架构既保证了基础能力的广度，又通过专项强化实现了深度能力的突破，最终构建出兼具通用性与专业性的新一代语言大模型。

如果说Qwen2开源时还带着点“技术保留”，Qwen3则彻底放飞自我。2款MoE模型+6款Dense模型全部开源，连协议都换成Apache 2.0（商用随便薅！）。反观Llama3，至今还在“开源但不可商用”的扭捏状态。

斯坦福《2025人工智能指数报告》显示，通义千问有六款模型入选全球前三，技术贡献位列中国第一，全球第三，仅次于谷歌和OpenAI。

增加模型在海外的部署，也是大厂在AI方面的竞赛之一。开源模型成为技术出海的重要抓手，DeepSeek推出的MoE架构模型，通过动态路由技术将推理成本降至GPT-4的17%，吸引全球3.6万开发者参与优化。百度文心一言、阿里Qwen等模型也在GitHub开源基础版本，形成“开源获客+闭源变现”的双轨模式。

今天上午和一个做算力的资深业内人士聊，他说：“各大厂把模型做的越来越快，技术上没有本质上的变革，目的是在海外扩大自己的模型部署，不过就提升模型的能力方面，对大厂来说也是利好。”

他认为，阿里这一次发布8个模型，是因为算力在不断提升，大模型就像数学原理上的发展，数学原理发展的越好未必能直接带来效益，但能带来AI应用方面的增长，AI应用全部依赖于大模型的基础，没有大模型的发展，应用很难实现突破。

相较于Llama 4系列模型获得的社区反响，Qwen系列已凭借扎实的数据支撑确立其全球开源领域的领先地位。作为目前全球规模最大的开源模型体系，阿里通义已向公众开放200余个预训练模型，累计下载量突破3亿次（综合 Hugging Face、魔搭等社区数据）。

更值得关注的是，基于Qwen核心架构衍生的定制化模型已超过10万个，这一数字不仅超越了Llama系列，更标志着Qwen生态已成长为全球最活跃的开源模型矩阵。这种指数级增长，印证了中国开源大模型在技术创新与社区共建方面的双重突破。

自通义千问自2023年首次亮相以来，几乎以惊人的迭代速度和技术突破，从一款基础语言模型逐步成长为横跨多模态、全生态的AI平台。这一历程不仅展现了阿里巴巴在大模型领域的布局野心，也折射出国产人工智能技术在全球竞争中的崛起轨迹。

2023年4月，通义千问1.0作为阿里巴巴推出的首款超大规模语言模型，正式开启探索之路。该版本初步实现了中文、英文等多语言文本生成与对话交互能力，并通过阿里云峰会展开定向企业测试。

尽管此时其整体技术成熟度仍落后于国际头部模型（如GPT-3.5），但已在国内首批通用型大模型中占据先机，与百度文心一言、腾讯混元形成早期竞争格局。

同年10月31日发布的通义千问2.0标志着性能的飞跃。参数规模突破千亿级，复杂指令理解、文学创作与数学推理能力显著提升，并推出8大垂直领域子模型（如编程助手通义灵码、法律助手通义法睿）。

App端向个人用户开放后，其综合性能接近GPT-3.5，超越Meta Llama-2-70B，成为国内首个实现工具化链路的企业级大模型平台。

2024年4月至5月，Qwen1.5系列的开源策略进一步巩固了其行业地位。覆盖5亿至1100亿参数的全尺寸模型矩阵满足多样化部署需求，CodeQwen1.5-7B成为智能编码标杆，下载量超700万次。

2024年5月9日，通义千问2.5在多模态任务上实现质的突破。深度推理能力优化后，逻辑与数学题解答准确率大幅提升，旗舰模型Qwen-VL-Max性能超越Gemini Ultra和GPT-4V，成为多模态领域的标杆产品。同年8月30日，视觉语言模型Qwen2-VL-72B重新定义视频分析边界。

今年3月27日，Qwen2.5-Omni开创端到端全模态处理范式。文本、图像、音频、视频同步处理能力实现人机交互体验革新，实时语音合成与情绪识别功能适配智能家居、车载系统，轻量化设计支持手机端高效部署，对标OpenAI GPT-4o和Google Gemini 2.5 Pro，引领下一代交互体验。