大家好,我是 Ai 学习的老章

我个人是 Qwen 的粉丝,单 Qwen3,我就写过数篇文章,它总是我开源模型中各种规模的首选。

阿里 _Qwen3_ 令人失望?[1]_Qwen3_ 果真拉垮了吗?实测[2]阿里 _Qwen3_ 模型更新,吉卜力风格 get[3]_Qwen3_ 对比 DeepSeek R1、Gemma3、Llama4[4]刚刚,阿里发布_Qwen3_ 技术报告,还有官方量化模型文件[5]DeepSeek-R1-0528 蒸馏 _Qwen3_:8B 大模型,双 4090 本地部署,深得我心[6]

刚刚,阿里针对 Qwen3-235B-A22B 进行了「微不足道」的小更新

目前最新版本是 Qwen3-235B-A22B-2507

新模型停止使用混合思考模式,分别训练指令和思考模型,以便获得最佳质量:

  • 指令遵循、逻辑推理、文本理解、数学、科学、编码和工具使用等一般能力方面有显著提升

  • 多种语言的长尾知识覆盖方面有大幅提高

  • 主观和开放式任务中与用户偏好的对齐度明显提高,能够提供更有帮助的响应和更高质量的文本生成。

  • 256K 长上下文理解方面的能力得到增强

对比Kimi-K2[7],新版模型,全面碾压!

在知识、推理、编程、多语言能力和用户偏好对齐上全面领先 GPT-4o 和 Deepseek-V3,接近或超越 Claude Opus 4 和 ,尤其在数学推理和用户偏好上优势显著

Qwen 网页端已默认支持:https://chat.qwen.ai

模型结构方面,对比

  • 总体上小 4.25 倍,但有更多的层(变压器块);235B vs 1 万亿

  • 活动参数少 1.5 倍(22B vs. 32B)

  • MoE 层中的专家要少得多(128 比 384);此外,专家也稍微小一些

  • 不使用共享专家(但其他方面也有 8 个活跃专家)

  • 每隔一层交替使用密集层和 MoE 块(变压器块)

  • 使用分组查询注意机制而不是多头潜在注意机制

打开网易新闻 查看精彩图片
https://x.com/rasbt/status/1947393814496190712

本地部署 FP16 至少需要 500GB 显存,虽然很大,但是比 700GB 的 DeepSeek 和 1000GB 的 K2 就少太多了

Qwen3-235b-2507 也发布了 FP8 版,仅需 240GB

部署脚本:

  • SGLang:

python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 --tp 8 --context-length 262144
  • vLLM:

vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 --tensor-parallel-size 8 --max-model-len 262144

使用推荐参数: Temperature=0.7, TopP=0.8, TopK=20, and MinP=0.

我现在只等量化版就本地部署实测一下

压力给到 Unsloth

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

参考资料

阿里 Qwen3 令人失望?: https://mp.weixin.qq.com/s/HOZVHCj8onwOEM0PIhSqZw

Qwen3 果真拉垮了吗?实测: https://mp.weixin.qq.com/s/QLOkxay5qzxCIt39rm7QQA

阿里 Qwen3 模型更新,吉卜力风格get: https://mp.weixin.qq.com/s/l5MdSYXrZEHJ2X1wUhI-QA

Qwen3 对比DeepSeek R1、Gemma3、Llama4: https://mp.weixin.qq.com/s/7tXEaQZdzQOejzX0TE2LUw

[5]

刚刚,阿里发布Qwen3 技术报告,还有官方量化模型文件: https://mp.weixin.qq.com/s/2M8DktZClexERav0A_hPTg

[6]

DeepSeek-R1-0528 蒸馏 Qwen3:8B大模型,双 4090本地部署,深得我心: https://mp.weixin.qq.com/s/0OccSyhDPnIrzMZSXbh8pw

[7]

如何运行Kimi K2 这个庞然大物(API & 本地部署): https://mp.weixin.qq.com/s/Et4oV7hKWaNJql2baGbpKw