一文中,我就表达了对 Qwen 开源顺序的稍稍不满,大家明明最期待的是 27B 啊
后来又测了几个 Qwen3.6-35B 的量化版本,都是关闭思考,已经完全可以取代钉子户 Qwen3-32B 了
刚刚,万众期待的 Qwen3.6-27B 终于来了
FP8 版的模型权重已经来到 30GB 级别,后面再来个 AWQ-4bit,简直完美,单卡 4090 都轻松
简介
先说结论:这是一个 27B 的 Dense 多模态模型,把上一代开源旗舰 Qwen3.5-397B-A17B(397B 总参 / 17B 激活)在几乎所有编码 Benchmark 上都干翻了
是的,你没看错,小了 15 倍,反手给了老大哥一巴掌
上图是官方放出的分数对比,我挑几个关键的给大家翻译翻译:
SWE-bench Verified :77.2(3.5-397B 是 76.2)
SWE-bench Pro :53.5(3.5-397B 是 50.9)
Terminal-Bench 2.0 :59.3(3.5-397B 是 52.5)
SkillsBench Avg5 :48.2(3.5-397B 只有 30.0,这个差距有点离谱)
GPQA Diamond :87.8
AIME 2026 :94.1
横向对比 Claude 4.5 Opus 这种闭源旗舰,编码上基本也就差个 1~5 分,Terminal-Bench 居然打平(都是 59.3)
这个参数量做到这个水平,我只能说阿里这波是真卷出来了,对得起大家的期待
这次更新的核心卖点就两个:
Agentic Coding :前端任务、仓库级代码推理都明显更顺滑,这次是 real-world coding 直接对标 Claude
Thinking Preservation :多轮对话时可以保留历史的 thinking 上下文,代码迭代开发场景下,不用每轮都重新"想一遍"了
模型架构也有点意思:
参数量:27B(Dense,不是 MoE,部署简单)
上下文:原生 262,144 tokens,可扩展到 1,010,000 tokens (百万级)
层数:64 层,隐藏维度 5120
Hidden Layout:
16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))多模态:自带 Vision Encoder,图片、视频、文档通吃
支持 MTP(Multi-Token Prediction),推理速度有加成
Gated DeltaNet + Gated Attention 的混合架构,是 Qwen3.5 就开始用的,和纯 Attention 比,长上下文时显存友好很多。这也是为什么它敢说百万上下文。
顺便提一句,这次还同步放出了 FP8 量化版Qwen/Qwen3.6-27B-FP8:fine-grained fp8、block size 128,官方说「性能指标几乎与原始模型一致」,显存能砍掉一半左右,对本地部署是重磅利好
为什么这个 27B 值得你重点关注
老章这里掰开聊一下,27B Dense 这个尺寸对社区为什么是 sweet spot:
部署简单 :Dense 架构没有 MoE 路由那一套,不用折腾专家并行,vLLM/SGLang 直接一把梭
硬件门槛适中 :BF16 大约需要 54GB 显存,2 × A100 40G、1 × H100 80G、或者 4 × 4090 都能跑; FP8 版只要 27GB 左右,单张 48G 的 L40S / A6000 Ada 就能跑
能力不妥协 :前面 benchmark 已经证明了,它比上一代 397B 还强
纯开源权重 :Hugging Face 和 ModelScope 都有官方权重,商用随便
你用 Ollama 跑 Qwen3-30B 嫌小、跑 Qwen3.5-397B 跑不动的,现在中间这档终于有了像样的选手
本地部署(重点来了)
这次官方推荐 3 条路子:SGLang / vLLM / Hugging Face Transformers,另外还支持 KTransformers 做 CPU-GPU 异构推理。
老章个人生产环境里最喜欢的是 vLLM
1. vLLM 部署(推荐)
版本要求 vllm>=0.19.0,装新一点准没错:
uv pip install vllm --torch-backend=auto
标准启动(8 卡 tensor parallel、262K 上下文):
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3
带 Tool Call(Coding Agent 场景必开):
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder
开启 MTP(多 Token 预测,推理提速):
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'
只用文本能力(省显存,砍掉视觉编码器,给 KV Cache 让路):
vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--language-model-only
老章提个醒:官方明确说"如果 OOM 别无脑降 context,建议最少保留 128K,否则 thinking 能力会被阉割"
2. SGLang 部署
版本 sglang>=0.5.10:
uv pip install sglang[all]
标准启动:
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3
带 Tool Use:
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 --tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder
开启 MTP(投机解码):
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 --tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
3. Transformers 轻量部署(测试用)显存够、但懒得装 vLLM/SGLang,直接官方 Transformers 自带的 server 也行:
pip install "transformers[serving]"
transformers serve Qwen/Qwen3.6-27B --port 8000 --continuous-batching
注意这个是轻量级的,测试可以,上生产还是老老实实 vLLM/SGLang。
4. 显存不够?上 FP8 版
本地卡不够的兄弟,直接把模型名换成 Qwen/Qwen3.6-27B-FP8 即可,其他启动参数一毛一样
官方说指标几乎无损,显存需求直接腰斩
vllm serve Qwen/Qwen3.6-27B-FP8 \
--port 8000 \
--tensor-parallel-size 2 \
--max-model-len 131072 \
--reasoning-parser qwen3
双卡 4090、单卡 L40S/A6000 Ada 跑起来都挺香
使用
起好服务后,接口完全兼容 OpenAI,老配方了
采样参数官方推荐值(这个很关键,别瞎调):
思考模式(通用):
temperature=1.0, top_p=0.95, top_k=20, presence_penalty=0.0思考模式(精确编码,如 WebDev):
temperature=0.6, top_p=0.95, top_k=20非思考模式:
temperature=0.7, top_p=0.80, top_k=20, presence_penalty=1.5
纯文本请求:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")
messages = [
{"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]resp = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
presence_penalty=0.0,
extra_body={"top_k": 20},
)
print(resp)
默认开启思考,输出里会有
...
包裹的思考内容,不想要就按非思考模式的参数调。
多模态(图片)请求:
messages = [{
"role": "user",
"content": [
{"type": "image_url",
"image_url": {"url": "https://your-image-url.jpg"}},
{"type": "text", "text": "这张图里有几个圆?"},
]
}]resp = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
extra_body={"top_k": 20},
)
视频输入也一样,把 type 换成 video_url 即可,官方 demo 里都有。
老章小结
优点:
27B Dense,部署友好,社区期盼已久的甜点尺寸终于来了
Agentic Coding 能力真的强,SWE-bench 干翻 397B MoE 老大哥
原生 262K,可扩到 1M 上下文,仓库级代码任务够用
多模态 + 文本双修,一个模型吃到底
FP8 量化版同步放出,本地部署门槛再降一半
vLLM / SGLang / Transformers / KTransformers 全栈支持
局限:
27B 的盘子再怎么炼,HLE 这种超硬核推理题还是打不过 397B 和 Claude 4.5 Opus
默认开启 thinking,某些对延迟敏感的线上场景要注意切模式
context 不建议压缩到 128K 以下,否则 thinking 会退化(说明这个长上下文是设计内的,硬核缩不动)
关注➕一波,明天出本地部署性能实测
热门跟贴