一文中我把这个模型和本地部署(原版以及 GGUF)讲清楚了,但是它 70 多个 GB 的模型文件,我的 4090 吃起来很费劲。

昨天我又向大家介绍了 ,包括 4bit 量化版、推理加速版、Claude Opus 蒸馏版,模型文件压到 20GB 左右就舒服多了

打开网易新闻 查看精彩图片

我更喜欢的事 vLLM 启动,兼顾速度与并发,内网其他业务系统也能用到

我之前部署了 Qwen3.5-35B 的这个量化版本,vLLM 0.17 部署它很完美

关闭思考之后的性能测试,单并发可以到 148Token/s

PS:以下测试均为关闭思考后的结果 Qwen3.6关闭思考方式没变

打开网易新闻 查看精彩图片

虽然官方建议是 vLLM 0.19 起步,但是我发现 0.17 也可以拉起 Qwen3.6-35B

启动脚本:

set -euo pipefail

MODEL_DIR="/data/models/Qwen3.6-35B-A3B-AWQ-4bit"
CONTAINER_NAME="qwen35-35b-a3b-int4"
PORT=3004

docker rm -f "${CONTAINER_NAME}" 2>/dev/null || true

docker run -d \
--name "${CONTAINER_NAME}" \
--gpus '"device=1,2"' \
--ipc=host \
--shm-size=16g \
-p ${PORT}:8000 \
-v "${MODEL_DIR}":/model \
-e NCCL_P2P_DISABLE=0 \
-e NCCL_IB_DISABLE=1 \
--restart unless-stopped \
vllm/vllm-openai:v0.17.0 \
--model /model \
--served-model-name qwen3.5-35-int4 \
--tensor-parallel-size 2 \
--max-model-len 102400 \
--kv-cache-dtype fp8 \
--gpu-memory-utilization 0.9 \
--max-num-seqs 24 \
--max-num-batched-tokens 8192 \
--language-model-only \
--enable-prefix-caching \
--default-chat-template-kwargs '{"enable_thinking":false}' \
--host 0.0.0.0 \
--port 8000

100K 上下文的显存占用

打开网易新闻 查看精彩图片

性能测试,稍微弱于 Qwen3.5 一丢丢,微乎其微

打开网易新闻 查看精彩图片

,用它启动 Qwen3.6-35B-A5B,性能又弱了一丢丢。。。

打开网易新闻 查看精彩图片

内网没办法做 toolcall 测试,我只是简单对比了一下它们的编程能力

打开网易新闻 查看精彩图片

代码量上,3.5 大约 477 行,3.6 大约 256 行

3.5 明显更长,用 CSS 动画实现,但长出来的很多部分其实是解释、重复和前后不一致的内容,不是真正有效的实现,没次刷新页面才能短暂看到燃放瞬间。

打开网易新闻 查看精彩图片

3.6 的想法更单纯,就是用 Cancas 把烟花升空、爆开、消散这一整套过程连续画出来,甚至还用了数据计算模拟重力,所以方向更清楚,最大的问题是画面位置弄错了,所以我实际打开时几乎就是黑屏

打开网易新闻 查看精彩图片

半斤八两吧,初版都有 bug,指出问题重新生成

最后看下生成速度 150 左右 tokens 每秒 还是很赏心悦目的

本文核心是性能测试,实际体验,要再用用