Qwn3 发了一个「微不足道」的小更新，碾压Kimi K2、DeepSeek V3|deepseek|kimi|max|qwen|变压器|深度思考模型|知名企业|阿里巴巴

大家好，我是 Ai 学习的老章

我个人是 Qwen 的粉丝，单 Qwen3，我就写过数篇文章，它总是我开源模型中各种规模的首选。

阿里 _Qwen3_ 令人失望？[1]_Qwen3_ 果真拉垮了吗？实测[2]阿里 _Qwen3_ 模型更新，吉卜力风格 get[3]_Qwen3_ 对比 DeepSeek R1、Gemma3、Llama4[4]刚刚，阿里发布_Qwen3_ 技术报告，还有官方量化模型文件[5]DeepSeek-R1-0528 蒸馏 _Qwen3_:8B 大模型，双 4090 本地部署，深得我心[6]

刚刚，阿里针对 Qwen3-235B-A22B 进行了「微不足道」的小更新

目前最新版本是 Qwen3-235B-A22B-2507

新模型停止使用混合思考模式，分别训练指令和思考模型，以便获得最佳质量：

在指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用等一般能力方面有显著提升。
在多种语言的长尾知识覆盖方面有大幅提高。
在主观和开放式任务中与用户偏好的对齐度明显提高，能够提供更有帮助的响应和更高质量的文本生成。
在256K 长上下文理解方面的能力得到增强。

对比Kimi-K2[7]，新版模型，全面碾压！

在知识、推理、编程、多语言能力和用户偏好对齐上全面领先 GPT-4o 和 Deepseek-V3，接近或超越 Claude Opus 4 和，尤其在数学推理和用户偏好上优势显著

Qwen 网页端已默认支持：https://chat.qwen.ai

模型结构方面，对比

总体上小 4.25 倍，但有更多的层（变压器块）；235B vs 1 万亿
活动参数少 1.5 倍（22B vs. 32B）
MoE 层中的专家要少得多（128 比 384）；此外，专家也稍微小一些
不使用共享专家（但其他方面也有 8 个活跃专家）
每隔一层交替使用密集层和 MoE 块（变压器块）
使用分组查询注意机制而不是多头潜在注意机制

https://x.com/rasbt/status/1947393814496190712

本地部署 FP16 至少需要 500GB 显存，虽然很大，但是比 700GB 的 DeepSeek 和 1000GB 的 K2 就少太多了

Qwen3-235b-2507 也发布了 FP8 版，仅需 240GB

部署脚本：

SGLang:

python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 --tp 8 --context-length 262144

vLLM:

vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 --tensor-parallel-size 8 --max-model-len 262144

使用推荐参数： Temperature=0.7, TopP=0.8, TopK=20, and MinP=0.

我现在只等量化版就本地部署实测一下

压力给到 Unsloth

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个，谢谢你看我的文章，我们下篇再见！

参考资料

阿里 Qwen3 令人失望？: https://mp.weixin.qq.com/s/HOZVHCj8onwOEM0PIhSqZw

Qwen3 果真拉垮了吗？实测: https://mp.weixin.qq.com/s/QLOkxay5qzxCIt39rm7QQA

阿里 Qwen3 模型更新，吉卜力风格get: https://mp.weixin.qq.com/s/l5MdSYXrZEHJ2X1wUhI-QA

Qwen3 对比DeepSeek R1、Gemma3、Llama4: https://mp.weixin.qq.com/s/7tXEaQZdzQOejzX0TE2LUw

[5]

刚刚，阿里发布Qwen3 技术报告，还有官方量化模型文件: https://mp.weixin.qq.com/s/2M8DktZClexERav0A_hPTg

[6]

DeepSeek-R1-0528 蒸馏 Qwen3:8B大模型，双 4090本地部署，深得我心: https://mp.weixin.qq.com/s/0OccSyhDPnIrzMZSXbh8pw

[7]

如何运行Kimi K2 这个庞然大物（API & 本地部署）: https://mp.weixin.qq.com/s/Et4oV7hKWaNJql2baGbpKw

Qwn3 发了一个「微不足道」的小更新，碾压Kimi K2、DeepSeek V3

热搜

热门跟贴

热搜

热门跟贴

相关推荐

DeepSeek用V4重画了坐标系

Kimi新架构让马斯克叹服！17岁高中生作者一战成名

让LLM不再话痨，快手HiPO框架来了

阿里QoderWake上岗：有身份、有记忆、有红线，先给它一版“职业行为指南“

有人只用API就猜出了GPT、Claude、Gemini的参数量？社区吵翻了

华为Pura 90 Pro Max体验：AI拍片，比2亿长焦还狠

这个挥金如土的阔太，才是马云真正的靠山

选智界V9必知：不同配置适合哪些人？

马斯克用Grok替代X员工，裁员90%

我在腾讯ima里，养了一个最佳员工

腾讯混元CL-bench续作发布，让大模型读懂你的日常生活

中国女婿准备在老挝开砖厂，没想到变压器是天价

PixelRefer ：让AI从“看大图”走向“看懂每个对象”

国网山东电力：满格电力点亮“好客山东”

Kimi掉队：C端失血，出海是最现实的主战略

你刷到的视频是真的么？用物理规律拆穿Sora谎言

印度一名男子停车碰到变压器触电，当场人没了！

索尼游戏PC销量惨淡！多款作品没破百万 根本卖不动

DeepSeek推荐：适合五一假期做的51件小事

HG大魔夺金！细节赢了1/60

索尼游戏PC销量惨淡！多款作品没破百万根本卖不动