一文中,我就表达了对 Qwen 开源顺序的稍稍不满,大家明明最期待的是 27B 啊

后来又测了几个 Qwen3.6-35B 的量化版本,都是关闭思考,已经完全可以取代钉子户 Qwen3-32B 了

刚刚,万众期待的 Qwen3.6-27B 终于来了

打开网易新闻 查看精彩图片

FP8 版的模型权重已经来到 30GB 级别,后面再来个 AWQ-4bit,简直完美,单卡 4090 都轻松

简介

先说结论:这是一个 27B 的 Dense 多模态模型,把上一代开源旗舰 Qwen3.5-397B-A17B(397B 总参 / 17B 激活)在几乎所有编码 Benchmark 上都干翻了

是的,你没看错,小了 15 倍,反手给了老大哥一巴掌

打开网易新闻 查看精彩图片

上图是官方放出的分数对比,我挑几个关键的给大家翻译翻译:

  • SWE-bench Verified :77.2(3.5-397B 是 76.2)

  • SWE-bench Pro :53.5(3.5-397B 是 50.9)

  • Terminal-Bench 2.0 :59.3(3.5-397B 是 52.5)

  • SkillsBench Avg5 :48.2(3.5-397B 只有 30.0,这个差距有点离谱)

  • GPQA Diamond :87.8

  • AIME 2026 :94.1

横向对比 Claude 4.5 Opus 这种闭源旗舰,编码上基本也就差个 1~5 分,Terminal-Bench 居然打平(都是 59.3)

这个参数量做到这个水平,我只能说阿里这波是真卷出来了,对得起大家的期待

这次更新的核心卖点就两个:

  • Agentic Coding :前端任务、仓库级代码推理都明显更顺滑,这次是 real-world coding 直接对标 Claude

  • Thinking Preservation :多轮对话时可以保留历史的 thinking 上下文,代码迭代开发场景下,不用每轮都重新"想一遍"了

模型架构也有点意思:

  • 参数量:27B(Dense,不是 MoE,部署简单)

  • 上下文:原生 262,144 tokens,可扩展到 1,010,000 tokens (百万级)

  • 层数:64 层,隐藏维度 5120

  • Hidden Layout: 16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))

  • 多模态:自带 Vision Encoder,图片、视频、文档通吃

  • 支持 MTP(Multi-Token Prediction),推理速度有加成

Gated DeltaNet + Gated Attention 的混合架构,是 Qwen3.5 就开始用的,和纯 Attention 比,长上下文时显存友好很多。这也是为什么它敢说百万上下文。

顺便提一句,这次还同步放出了 FP8 量化版Qwen/Qwen3.6-27B-FP8:fine-grained fp8、block size 128,官方说「性能指标几乎与原始模型一致」,显存能砍掉一半左右,对本地部署是重磅利好

为什么这个 27B 值得你重点关注

老章这里掰开聊一下,27B Dense 这个尺寸对社区为什么是 sweet spot:

  1. 部署简单 :Dense 架构没有 MoE 路由那一套,不用折腾专家并行,vLLM/SGLang 直接一把梭

  2. 硬件门槛适中 :BF16 大约需要 54GB 显存,2 × A100 40G、1 × H100 80G、或者 4 × 4090 都能跑; FP8 版只要 27GB 左右,单张 48G 的 L40S / A6000 Ada 就能跑

  3. 能力不妥协 :前面 benchmark 已经证明了,它比上一代 397B 还强

  4. 纯开源权重 :Hugging Face 和 ModelScope 都有官方权重,商用随便

你用 Ollama 跑 Qwen3-30B 嫌小、跑 Qwen3.5-397B 跑不动的,现在中间这档终于有了像样的选手

本地部署(重点来了)

这次官方推荐 3 条路子:SGLang / vLLM / Hugging Face Transformers,另外还支持 KTransformers 做 CPU-GPU 异构推理。

老章个人生产环境里最喜欢的是 vLLM

1. vLLM 部署(推荐)

版本要求 vllm>=0.19.0,装新一点准没错:

uv pip install vllm --torch-backend=auto

标准启动(8 卡 tensor parallel、262K 上下文):

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3

带 Tool Call(Coding Agent 场景必开):

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--enable-auto-tool-choice \
--tool-call-parser qwen3_coder

开启 MTP(多 Token 预测,推理提速)

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

只用文本能力(省显存,砍掉视觉编码器,给 KV Cache 让路):

vllm serve Qwen/Qwen3.6-27B \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--language-model-only

老章提个醒:官方明确说"如果 OOM 别无脑降 context,建议最少保留 128K,否则 thinking 能力会被阉割"

2. SGLang 部署

版本 sglang>=0.5.10

uv pip install sglang[all]

标准启动:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3

带 Tool Use:

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 --tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder

开启 MTP(投机解码):

python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-27B \
--port 8000 --tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--speculative-algo NEXTN \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4
3. Transformers 轻量部署(测试用)

显存够、但懒得装 vLLM/SGLang,直接官方 Transformers 自带的 server 也行:

pip install "transformers[serving]"
transformers serve Qwen/Qwen3.6-27B --port 8000 --continuous-batching

注意这个是轻量级的,测试可以,上生产还是老老实实 vLLM/SGLang。

4. 显存不够?上 FP8 版

本地卡不够的兄弟,直接把模型名换成 Qwen/Qwen3.6-27B-FP8 即可,其他启动参数一毛一样

官方说指标几乎无损,显存需求直接腰斩

vllm serve Qwen/Qwen3.6-27B-FP8 \
--port 8000 \
--tensor-parallel-size 2 \
--max-model-len 131072 \
--reasoning-parser qwen3

双卡 4090、单卡 L40S/A6000 Ada 跑起来都挺香

使用

起好服务后,接口完全兼容 OpenAI,老配方了

采样参数官方推荐值(这个很关键,别瞎调):

  • 思考模式(通用): temperature=1.0, top_p=0.95, top_k=20, presence_penalty=0.0

  • 思考模式(精确编码,如 WebDev): temperature=0.6, top_p=0.95, top_k=20

  • 非思考模式: temperature=0.7, top_p=0.80, top_k=20, presence_penalty=1.5

纯文本请求:

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

messages = [
{"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]

resp = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
presence_penalty=0.0,
extra_body={"top_k": 20},
)
print(resp)

默认开启思考,输出里会有 ... 包裹的思考内容,不想要就按非思考模式的参数调。

多模态(图片)请求:

messages = [{
"role": "user",
"content": [
{"type": "image_url",
"image_url": {"url": "https://your-image-url.jpg"}},
{"type": "text", "text": "这张图里有几个圆?"},
]
}]


resp = client.chat.completions.create(
model="Qwen/Qwen3.6-27B",
messages=messages,
max_tokens=81920,
temperature=1.0,
top_p=0.95,
extra_body={"top_k": 20},
)

视频输入也一样,把 type 换成 video_url 即可,官方 demo 里都有。

老章小结

优点:

  • 27B Dense,部署友好,社区期盼已久的甜点尺寸终于来了

  • Agentic Coding 能力真的强,SWE-bench 干翻 397B MoE 老大哥

  • 原生 262K,可扩到 1M 上下文,仓库级代码任务够用

  • 多模态 + 文本双修,一个模型吃到底

  • FP8 量化版同步放出,本地部署门槛再降一半

  • vLLM / SGLang / Transformers / KTransformers 全栈支持

局限:

  • 27B 的盘子再怎么炼,HLE 这种超硬核推理题还是打不过 397B 和 Claude 4.5 Opus

  • 默认开启 thinking,某些对延迟敏感的线上场景要注意切模式

  • context 不建议压缩到 128K 以下,否则 thinking 会退化(说明这个长上下文是设计内的,硬核缩不动)

  • 关注➕一波,明天出本地部署性能实测