Qwen3.6-35B 量化版，vLLM本地部署，性能实测|model|qwen|vllm|上下文|性能实测|电子表格|编程

一文中我把这个模型和本地部署（原版以及 GGUF）讲清楚了，但是它 70 多个 GB 的模型文件，我的 4090 吃起来很费劲。

昨天我又向大家介绍了，包括 4bit 量化版、推理加速版、Claude Opus 蒸馏版，模型文件压到 20GB 左右就舒服多了

我更喜欢的事 vLLM 启动，兼顾速度与并发，内网其他业务系统也能用到

我之前部署了 Qwen3.5-35B 的这个量化版本，vLLM 0.17 部署它很完美

关闭思考之后的性能测试，单并发可以到 148Token/s

PS：以下测试均为关闭思考后的结果 Qwen3.6关闭思考方式没变

虽然官方建议是 vLLM 0.19 起步，但是我发现 0.17 也可以拉起 Qwen3.6-35B

启动脚本：

set -euo pipefail

MODEL_DIR="/data/models/Qwen3.6-35B-A3B-AWQ-4bit"
CONTAINER_NAME="qwen35-35b-a3b-int4"
PORT=3004

docker rm -f "${CONTAINER_NAME}" 2>/dev/null || true

docker run -d \
--name "${CONTAINER_NAME}" \
--gpus '"device=1,2"' \
--ipc=host \
--shm-size=16g \
-p ${PORT}:8000 \
-v "${MODEL_DIR}":/model \
-e NCCL_P2P_DISABLE=0 \
-e NCCL_IB_DISABLE=1 \
--restart unless-stopped \
vllm/vllm-openai:v0.17.0 \
--model /model \
--served-model-name qwen3.5-35-int4 \
--tensor-parallel-size 2 \
--max-model-len 102400 \
--kv-cache-dtype fp8 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 24 \
--max-num-batched-tokens 8192 \
--language-model-only \
--enable-prefix-caching \
--default-chat-template-kwargs '{"enable_thinking":false}' \
--host 0.0.0.0 \
--port 8000