阿里发布最新万亿参数大模型 Qwen3-Max

鲸选AI

2025-09-06 01:18 ·北京 ·优质互联网领域创作者

刚刚，阿里发布最新的1万亿参数大模型Qwen3-Max ，这是基于Qwen3-235B-A22B-2507系列发布的最新版本。

与 253B 版本相比，在推理能力、指令遵循、多语言支持和长尾知识覆盖方面有重大改进：

1) 数学、编程、逻辑和科学任务中有更高准确率；

2) 更强的指令遵循能力 & 减少幻觉现象，并为开放式问答、写作和对话生成更高质量的回复；

3) 支持超过 100 种语言，具有更强的翻译和常识推理能力；

4）针对检索增强生成（RAG）+ 工具调用优化（无“思考”模式）；

具体看测评，在这份Qwen3-Max、Qwen3235B-A22B、Kimi K2、Claude Opus 4 Nonthinking、Deepseek-V3.1参与的榜单中（图二），

通义千问Qwen3-Max-Instruct-Preview在五大基准测试，成为当前综合成绩最强的AI大模型。

测评涵盖五大核心能力维度：

SuperGPQA（科学与逻辑推理）
AIME25（高阶数学解题）
LiveCodeBench v6（编程实战能力）
Arena-Hard v2（多领域高难挑战）
LiveBench（实时综合表现）

参评模型简评：

Qwen3-Max各项都达到了SOTA

在AIME25美国数学邀请赛模拟题中获80.6分，超第二名10分以上；
Arena-Hard v2高难挑战赛中以86.1分登顶，表现出复杂问题拆解能力；
LiveBench实时综合体育以79.5分获得榜首；

Qwen3235B在实例任务中紧随其后，尤其在编程（LiveCodeBench）与综合能力（LiveBench）中表现尚可，是企业级部署之选。

️Kimi K2在LiveBench中以76.4分逼近榜首，表现出实时响应与多轮交互能力，但在数学领域仍有提升空间。（不确定是不是0905版本）

⚖️Anthropic的Claude Opus 4表现稳定，尤其在代码生成（LiveCodeBench）中位列前三，适合通用型任务场景，无明显短板。（不怕你断供了）

⚠️Deepseek-V3.1暂居末位虽然在部分任务中表现尚可。

Qwen3-Max有没有一贯的过载现象，后续实测将给出答案。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴