在拥有全球最有影响力的三大开源模型之后,杭州再次超越杭州。
今天凌晨, 阿里巴巴开源新一代通义千问模型 Qwen3 (简称千问 3 ) ,参数量仅为 DeepSeek-R1 的 1/3 ,成本大幅下降,性能则全面超越 R1 、 OpenAI-o1 等全球顶尖模型,登顶全球最强开源模型。
而就在一个月前,杭州三大开源模型包揽全球最大 AI 开源社区 HuggingFace 趋势榜榜单前三。
千问 3 宣布开源短短几个小时,获得了众多海外网友的点赞。有网友说: “ 中国刚刚超越了自己,成为开源人工智能领域第一大力量。我们正在见证一个全新时代的开始。 ”
性能超越DeepSeek-R1和OpenAI-o1
千问3登顶全球最强开源模型
让海外网友大呼 “ 难以置信 ” 的千问 3 有多强?
简单来说,就是 性能大幅提升,成本更低, 在推理、指令跟随、智能体能力和多语言支持方面取得了突破性的进展。
千问 3 采用混合专家( MoE )架构,总参数量 235B ,激活只需要 22B 。千问 3 预训练数据量为 36T ,并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中。
在推理、指令遵循、工具调用、多语言能力等方面大幅增强后,创下所有国产模型及全球开源模型的性能新高。
比如在奥数水平的 AIME25 测评中,千问 3 斩获 81.5 分,刷新开源纪录;在考察代码能力的 LiveCodeBench 评测中,千问 3 突破 70 分大关,表现甚至超过 Grok3 ;在评估模型人类偏好对齐的 ArenaHard 测评中,以 95.6 分超越 OpenAI-o1 及 DeepSeek-R1 。
千问 3 性能图
性能大幅提升的 同时,千问 3 的部署 成本则大幅下降。仅需 4 张 H20 即可部署千问 3 满血版,显存占用仅为性能相近模型的三分之一。
国内首个“混合推理模型”
简单问题秒回 复杂问题“深度思考”
相对问题比较简单,低算力 “ 秒回 ” 答案,不用担心延迟卡顿;如果问题比较复杂,则通过多步骤 “ 深度思考 ” 。
和其他大模型不同的是,千问 3 是国内首个 “ 混合推理模型 ” , “ 快思考 ” 与 “ 慢思考 ” 集成进同一个模型。 根据问题的复杂程度, API 可以按需设置 “ 思考预算 ” ,进行不同程度的思考,大大节省了算力消耗。
千问 3 开源了 6 款稠密( Dense )模型,参数是 0.6B, 1.7B, 4B, 8B, 14B, 32B ;以及两款 MoE 模型, Qwen3-30B-A3B ( 30B 总参数激活 3B ) , Qwne3-235B-A22B ( 235B 总参数激活 22B )。每款模型都是同尺寸下的开源最佳性能( SOTA )。
比如, 4B 模型是手机端的绝佳尺寸; 8B 可在电脑和汽车端侧丝滑部署应用; 14B 模型适合作落地应用,普通开发者有几张卡也能玩转起来; 32B 最受企业大规模部署欢迎,有条件的开发者也可轻松上手。
两款 MoE 模型中,旗舰 235B-A22B 模型仅激活很少参数就能获得极强性能,可以支持有一定资源基础的企业本地部署,整体上也非常适合云上部署使用;小一点的 MoE 模型 30B-A3B 则适合对模型要求快速响应的应用(类似 GPT 的 mini 系列模型),速度快,效果佳。
事实上,设计和训练混合推理模型的难度,远超单纯的推理模型的。想象一下,训练混合推理模型,相当于模型要学习两种不同的输出分布,要做到两个模式融合且基本不影响任何一种模式下的效果,很考验训练过程的训练策略。
非洲的斯瓦西里语都可以直接用
支持的语言和方言扩展到了119种
“ 根据我们内部的基准测评, Qwen2 基础模型超越了目前市场上所有的闭源大语言模型 ” 。这是一位名叫 Nguyen Quan 的越南工程师对千问 2 的评价。
在越南版 MMLU 测评中,无需微调的 Qwen-72B 模型取得了最佳成绩。 Qwen 迭代到 1.5 、 2 等更新版本,他也基于 Qwen 开发了越南语大模型。
在深度支持中、英、法、德、西、俄、日、韩、越、阿拉伯语等 29 种语言的基础上, 千问 3 支持的语言和方言达到了恐怖的 119 种。
其中,不但囊括了中、英、法、西、俄、阿拉伯等主要的联合国语言,还包含了德、意、日、韩、泰、越南、尼泊尔、瑞典、波兰、匈牙利等各国官方语言,此外,中国的粤语、非洲的斯瓦西里语、中东的意第绪语、西亚的亚美尼亚语、东南亚的爪哇语、美洲的海地语等地方性语言也不在话下。
这也意味着,低资源语言区(比如非洲的斯瓦西里语、中东的意第绪语等)的开发者,也可以借助大模型,直接使用或开发本地化工具,而不需要从零构建语言基础设施。同时,即使身处技术落后地区,没有持术能力开发自己语种的 AI 大模型的国家或地区,也能平等地体验 AI 大模型的强大能力。
杭州超越杭州
海外网友:我们正在见证一个全新时代
就在千问 3 发布几个小时后, 华为官方宣布昇腾 支持千问 3 全系列模型部署,开发者在 MindSpeed 和 MindIE 中开箱即用。一天也没有耽搁, 0 天适配。
而苹果公司的深度学习负责人,也透露苹果手机和电脑第一时间对千问 3 系列模型进行了适配,并且为每一款硬件推荐了最匹配的千问 3 模型。
除了华为、苹果等终端厂商, NVIDIA 、 Intel 、联发科、 AMD 等多家头部芯片厂商也已经火速成功适配千问 3 , 在不同硬件平台和软件栈上的推理效率均显著提升,可以满足移动终端和数据中心场景的 AI 推理需求。
短短几个小时,海外社交平台上众多开发者和网友的评论像潮水一样涌来。
一位网友评论: 当大家都在笑的时候,阿里打造了Qwen 3 ,一个混合 AI 模型,在匹配和性能上超越了 OpenAI 和谷歌。
也有网友说:中国刚刚超越了自己,成为开源人工智能领域的第一大力量。一年前,人们怀疑中国模型是否具有竞争力。
有趣的是,这两天大洋彼岸的硅谷, Meta 正在举行 LlamaCon 2025 ,即 Meta 首个生成式 AI 开发者大会。一位海外网友在社交平台发布了一张替大会组织者流瀑布汗的照片。
千问 3 的发布,全球 AI 界目光再次将聚焦到了杭州。 眼下,杭州已经成为坐 拥三大世界影响力开源大模型的城市,而这种你追我赶仍在继续。
今年 1 月至今, DeepSeek 发布并开源了两款大模型,分别火到全球的 DeepSeek-R1 ,以及 DeepSeek-V3 更新而来的 0324 版本。坊间传闻, DeepSeek-R2 开源也已经进入倒计时。
大厂出身的通义千问的更新开源速度到了令海外开发者震惊的程度。 1 月至今,已经推出了近十款 大模型,每次开源无一例外地将发布时间都选择了凌晨。
就在上个月,全球最大 AI 开源社区 HuggingFace 发布的最新趋势榜单,排在前三的三个大模型全部来自于杭州, 除了通义千问 Qwen2.5-Omni-7B 和 DeepSeek-V3-0324 ,还有一位新成员出自 “ 杭州六小龙 ” 群核科技发布的空间理解模型 —— 群核 SpatialLM 。
当时杭州一举包揽了全球前三,被网友戏称: “ 在开源大模型领域,杭州正在 ’ 挑战 ’ 杭州。 ”
作为一家全球竞争力的 AI 科技公司,从 2023 年至今,阿里通义团队已开源 200 多款模型,通义千问 Qwen 在全球下载量超过 3 亿。 目前, Qwen 衍生模型数量已突破 10 万,超越美国 Llama 模型,成为全球第一 AI 开源模型。
在 HuggingFace 社区 2024 年全球模型下载量中千问 Qwen 占比超 30% ,稳居第一。在 2025 年 2 月的 Huggingface 全球开源大模型榜单( Open LLM Leaderboard )中,排名前十的开源模型全部都是基于千问 Qwen 二次开发的衍生模型。
“中美之间在顶级技术领域的差距已经非常小,几乎可以忽略不计。” 今天,埃及前驻华大使马哈 茂德 ·阿莱姆对点赞中国千问3大模型时说。
今年4月份,斯坦福大学以人为本人工智能研究所(Stanford HAI)发布了《2025 年人工智能指数报告》。这份报告称,中美顶级AI大模型性能差距从2023年的两位数缩小至2024年近乎持平。
该报告显示, 2024 年重要大模型( Notable Models )中,阿里入选 6 个,按照模型贡献度排名,阿里 AI 贡献位列全球第三。
橙柿互动·都市快报 记者 沈积慧
审核 张倩 陈欣文
热门跟贴