阿里发布的千问3 Max Thinking,直接跻身全球AI第一梯队,与GPT 5.2、Gemini 3 Pro、Claude 4.5处于同一级别。这是国产AI首次在硬实力上追上国际顶尖水平——此前国产模型往往晚几个月,且难以达到同等级别,这次则直接站到了全球第一梯队的位置。
千问3 Max Thinking的性能刷新了多项纪录。它在AIME 2025、HMMT这些顶级数学推理测试中拿了满分,能通过4到5分钟多路径验算,调用527行代码完成高难度压轴题。更关键的是在HLE评测(被称为“人类最后的测试”)中,它得了58.3分,比GPT 5.2的45.5和Gemini 3 Pro的45.8高出12分以上,这种差距意味着代际级领先。
支撑这些性能的是两项核心技术创新。自适应工具调用能力让模型能在对话中自主选择搜索、个性化记忆或代码解释器,不用用户手动切换——比如解决复杂问题时,它会自己查实时信息、调用代码计算,避免幻觉。测试时扩展技术则更聪明:通过“经验提取”机制,从过往推理中提炼经验,剪枝冗余逻辑路径,把算力用在最有价值的分支上。比如传统模型会重复推导已知结论,而千问新模型能识别这些冗余,在GPQA测试中从90.3分到92.8分,LiveCodeBench从88.0分到91.4分,效率提升明显。
千问的生态已经长成全球级的开源体系。Qwen衍生模型数量突破20万,是全球首个达到这一目标的开源大模型;累计下载量超10亿次,日均被开发者下载110万次,稳居全球开源大模型首位。基于这个模型的千问APP也开启了公测,覆盖购物、外卖、商旅、健康等核心生活场景,要做AI生活的总入口,国际版近期也会推出,依托Qwen的海外影响力抢全球市场。
模型的突破背后是算力的投入。阿里计划投入3800亿元建设AI基础设施,直接拉动服务器、光模块、液冷设备的需求——机构预测国内AI算力产业链订单会增长40%。边缘计算也跟着起来了:网宿科技把端侧推理延迟降到100ms以内,AI视频处理收入涨了180%;全志科技的物联网芯片适配终端推理,抢占硬件入口。行业应用也在加速落地:恒生电子用它做智能投顾,卫宁健康分析病历,金桥信息搞司法大模型,把AI带进金融、医疗、司法这些高端领域。
现在用户已经能在千问APP、网页端免费体验千问3 Max Thinking,API也开放了。网友的反应里,有人惊讶于它的更新速度超过OpenAI,有人期待产品体验再打磨,但更多是认可——国产AI终于在硬实力上追上了全球顶尖,不再是“晚几个月”的跟随者,而是站到了第一梯队里。
热门跟贴