Qwen3.6-27B 开源了，27B 小身板干翻 397B 巨无霸|fp|parser|python|qwen|top|上下文|电子表格

一文中，我就表达了对 Qwen 开源顺序的稍稍不满，大家明明最期待的是 27B 啊

后来又测了几个 Qwen3.6-35B 的量化版本，都是关闭思考，已经完全可以取代钉子户 Qwen3-32B 了

刚刚，万众期待的 Qwen3.6-27B 终于来了

FP8 版的模型权重已经来到 30GB 级别，后面再来个 AWQ-4bit，简直完美，单卡 4090 都轻松

简介

先说结论：这是一个 27B 的 Dense 多模态模型，把上一代开源旗舰 Qwen3.5-397B-A17B（397B 总参 / 17B 激活）在几乎所有编码 Benchmark 上都干翻了

是的，你没看错，小了 15 倍，反手给了老大哥一巴掌

上图是官方放出的分数对比，我挑几个关键的给大家翻译翻译：

SWE-bench Verified ：77.2（3.5-397B 是 76.2）
SWE-bench Pro ：53.5（3.5-397B 是 50.9）
Terminal-Bench 2.0 ：59.3（3.5-397B 是 52.5）
SkillsBench Avg5 ：48.2（3.5-397B 只有 30.0，这个差距有点离谱）
GPQA Diamond ：87.8
AIME 2026 ：94.1

横向对比 Claude 4.5 Opus 这种闭源旗舰，编码上基本也就差个 1~5 分，Terminal-Bench 居然打平（都是 59.3）

这个参数量做到这个水平，我只能说阿里这波是真卷出来了，对得起大家的期待

这次更新的核心卖点就两个：

Agentic Coding ：前端任务、仓库级代码推理都明显更顺滑，这次是 real-world coding 直接对标 Claude
Thinking Preservation ：多轮对话时可以保留历史的 thinking 上下文，代码迭代开发场景下，不用每轮都重新"想一遍"了

模型架构也有点意思：

参数量：27B（Dense，不是 MoE，部署简单）
上下文：原生 262,144 tokens，可扩展到 1,010,000 tokens （百万级）
层数：64 层，隐藏维度 5120
Hidden Layout： 16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))
多模态：自带 Vision Encoder，图片、视频、文档通吃
支持 MTP（Multi-Token Prediction），推理速度有加成

Gated DeltaNet + Gated Attention 的混合架构，是 Qwen3.5 就开始用的，和纯 Attention 比，长上下文时显存友好很多。这也是为什么它敢说百万上下文。

顺便提一句，这次还同步放出了 FP8 量化版Qwen/Qwen3.6-27B-FP8：fine-grained fp8、block size 128，官方说「性能指标几乎与原始模型一致」，显存能砍掉一半左右，对本地部署是重磅利好

为什么这个 27B 值得你重点关注

老章这里掰开聊一下，27B Dense 这个尺寸对社区为什么是 sweet spot：

部署简单 ：Dense 架构没有 MoE 路由那一套，不用折腾专家并行，vLLM/SGLang 直接一把梭
硬件门槛适中 ：BF16 大约需要 54GB 显存，2 × A100 40G、1 × H100 80G、或者 4 × 4090 都能跑； FP8 版只要 27GB 左右，单张 48G 的 L40S / A6000 Ada 就能跑
能力不妥协 ：前面 benchmark 已经证明了，它比上一代 397B 还强
纯开源权重 ：Hugging Face 和 ModelScope 都有官方权重，商用随便

你用 Ollama 跑 Qwen3-30B 嫌小、跑 Qwen3.5-397B 跑不动的，现在中间这档终于有了像样的选手

本地部署（重点来了）

这次官方推荐 3 条路子：SGLang / vLLM / Hugging Face Transformers，另外还支持 KTransformers 做 CPU-GPU 异构推理。

老章个人生产环境里最喜欢的是 vLLM

1. vLLM 部署（推荐）

版本要求 vllm>=0.19.0，装新一点准没错：

uv pip install vllm --torch-backend=auto

标准启动（8 卡 tensor parallel、262K 上下文）：

vllm serve Qwen/Qwen3.6-27B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3

带 Tool Call（Coding Agent 场景必开）：

vllm serve Qwen/Qwen3.6-27B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3_coder

开启 MTP（多 Token 预测，推理提速）：

vllm serve Qwen/Qwen3.6-27B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'

只用文本能力（省显存，砍掉视觉编码器，给 KV Cache 让路）：

vllm serve Qwen/Qwen3.6-27B \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --reasoning-parser qwen3 \
  --language-model-only

老章提个醒：官方明确说"如果 OOM 别无脑降 context，建议最少保留 128K，否则 thinking 能力会被阉割"

2. SGLang 部署

版本 sglang>=0.5.10：

uv pip install sglang[all]

标准启动：

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3

带 Tool Use：

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B \
  --port 8000 --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen3_coder

开启 MTP（投机解码）：

python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-27B \
  --port 8000 --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --speculative-algo NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

3. Transformers 轻量部署（测试用）

显存够、但懒得装 vLLM/SGLang，直接官方 Transformers 自带的 server 也行：

pip install "transformers[serving]"
transformers serve Qwen/Qwen3.6-27B --port 8000 --continuous-batching

注意这个是轻量级的，测试可以，上生产还是老老实实 vLLM/SGLang。

4. 显存不够？上 FP8 版

本地卡不够的兄弟，直接把模型名换成 Qwen/Qwen3.6-27B-FP8 即可，其他启动参数一毛一样

官方说指标几乎无损，显存需求直接腰斩

vllm serve Qwen/Qwen3.6-27B-FP8 \
  --port 8000 \
  --tensor-parallel-size 2 \
  --max-model-len 131072 \
  --reasoning-parser qwen3

双卡 4090、单卡 L40S/A6000 Ada 跑起来都挺香

使用

起好服务后，接口完全兼容 OpenAI，老配方了

采样参数官方推荐值（这个很关键，别瞎调）：

思考模式（通用）： temperature=1.0, top_p=0.95, top_k=20, presence_penalty=0.0
思考模式（精确编码，如 WebDev）： temperature=0.6, top_p=0.95, top_k=20
非思考模式： temperature=0.7, top_p=0.80, top_k=20, presence_penalty=1.5

纯文本请求：

from openai import OpenAI
client = OpenAI(base_url="http://localhost:8000/v1", api_key="EMPTY")

 messages = [
    {"role": "user", "content": "Type \"I love Qwen3.6\" backwards"},
]

 resp = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    presence_penalty=0.0,
    extra_body={"top_k": 20},
)
print(resp)

默认开启思考，输出里会有 ... 包裹的思考内容，不想要就按非思考模式的参数调。

多模态（图片）请求：

messages = [{
    "role": "user",
    "content": [
        {"type": "image_url",
         "image_url": {"url": "https://your-image-url.jpg"}},
        {"type": "text", "text": "这张图里有几个圆？"},
    ]
}]


 resp = client.chat.completions.create(
    model="Qwen/Qwen3.6-27B",
    messages=messages,
    max_tokens=81920,
    temperature=1.0,
    top_p=0.95,
    extra_body={"top_k": 20},
)