实测，单卡 4090 + llama.cpp 轻松跑 Claude-Opus-4.6蒸馏版Qwen3.5 27B，46 Token每秒！|cpp|opus|token|上下文|单卡|电子表格

前文：

本文实测 24GB 显存的 4090 单卡启动 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Q4_K_M

省流：

1、单卡 4090 跑 27B 很轻松，最高64K 上下文、128K 报 OOM，这个上下文还是不错的，对比同样单 4090 启动的，上下文只能开到 10K
2、平均生成速度 46 token/s 的样子，并发是没有的，个人用还可以
3、实际表现中规中矩，中等水平，可以完成核心任务，细节不如 GLM-4.7-Flash

极简过程及启动脚本下载模型

我选择的这个

使用 modelscope 下载

pip install modelscope
modelscope download --model Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-27B.Q4_K_M.gguf --local_dir .

llama.cpp 安装

安装真是一言难尽，大家各显神通吧

我的内网机基础环境很差，编译从来没有成功过

所以还是走的 Docker 方案

docker pull ghcr.io/ggml-org/llama.cpp:full-cuda

启动脚本

我计划完全用显卡来跑，不动用 CPU

启动脚本：

docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -ngl 99

前端对话使用的自带 UI，其实可以接入到 OpenwebUI，它现在的 UI 还支持 MCP

告诉他细节不够丰富后，这种表现已经十分优秀了，这个题目考察阅读理解+svg 代码生成+审美，很多大号模型表现也不一定这么好

对比 GLM-4.7-Flash-AWQ-4bit

平均 46 t/s

测试并发能力，失败告终

找 GPT5.4 读了文档加了一些支持并发，激发性能的参数，结果依然如上，没有改善，或许默认的 4 并发会好一些，没在尝试。

docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -kvu -ngl 99 --flash-attn on -b 1024 -t 48

，结论：

lama.cpp 并未针对张量并行（Tensor Parallelism）与批推理（Batch Inference）进行优化。只有在进行 LLM 的部分或全部 CPU 卸载时，你才应该使用 llama.cpp。但在多 GPU 配置下，需要经过优化的批推理与 Tensor Parallelism，此时 vLLM 是正确选择。