刚刚,阿里发布最新的1万亿参数大模型Qwen3-Max ,这是基于Qwen3-235B-A22B-2507系列发布的最新版本。

与 253B 版本相比,在推理能力、指令遵循、多语言支持和长尾知识覆盖方面有重大改进:

1) 数学、编程、逻辑和科学任务中有更高准确率;

2) 更强的指令遵循能力 & 减少幻觉现象 ,并为开放式问答、写作和对话生成更高质量的回复;

3) 支持超过 100 种语言,具有更强的翻译和常识推理能力;

4)针对检索增强生成(RAG)+ 工具调用优化(无“思考”模式);

具体看测评,在这份Qwen3-Max、Qwen3235B-A22B、Kimi K2、Claude Opus 4 Nonthinking、Deepseek-V3.1参与的榜单中(图二),

通义千问Qwen3-Max-Instruct-Preview在五大基准测试,成为当前综合成绩最强的AI大模型

测评涵盖五大核心能力维度:

SuperGPQA(科学与逻辑推理)
AIME25(高阶数学解题)
LiveCodeBench v6(编程实战能力)
Arena-Hard v2(多领域高难挑战)
LiveBench(实时综合表现)

参评模型简评:

Qwen3-Max各项都达到了SOTA

在AIME25美国数学邀请赛模拟题中获80.6分,超第二名10分以上;
Arena-Hard v2高难挑战赛中以86.1分登顶,表现出复杂问题拆解能力;
LiveBench实时综合体育以79.5分获得榜首;

Qwen3235B在实例任务中紧随其后,尤其在编程(LiveCodeBench)与综合能力(LiveBench)中表现尚可,是企业级部署之选。

️Kimi K2在LiveBench中以76.4分逼近榜首,表现出实时响应与多轮交互能力,但在数学领域仍有提升空间。(不确定是不是0905版本)

⚖️Anthropic的Claude Opus 4表现稳定,尤其在代码生成(LiveCodeBench)中位列前三,适合通用型任务场景,无明显短板。 (不怕你断供了)

⚠️Deepseek-V3.1暂居末位虽然在部分任务中表现尚可。

Qwen3-Max有没有一贯的过载现象,后续实测将给出答案。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片