前文:

本文实测 24GB 显存的 4090 单卡启动 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Q4_K_M

省流:

  • 1、单卡 4090 跑 27B 很轻松,最高64K 上下文、128K 报 OOM,这个上下文还是不错的,对比同样单 4090 启动的 ,上下文只能开到 10K

  • 2、平均生成速度 46 token/s 的样子,并发是没有的,个人用还可以

  • 3、 实际表现中规中矩,中等水平,可以完成核心任务,细节不如 GLM-4.7-Flash

极简过程及启动脚本 下载模型

我选择的这个

打开网易新闻 查看精彩图片

使用 modelscope 下载

pip install modelscope
modelscope download --model Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-GGUF Qwen3.5-27B.Q4_K_M.gguf --local_dir .
llama.cpp 安装

安装真是一言难尽,大家各显神通吧

我的内网机基础环境很差,编译从来没有成功过

所以还是走的 Docker 方案

docker pull ghcr.io/ggml-org/llama.cpp:full-cuda

启动脚本

我计划完全用显卡来跑,不动用 CPU

启动脚本:

docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -ngl 99 

前端对话使用的自带 UI,其实可以接入到 OpenwebUI,它现在的 UI 还支持 MCP

打开网易新闻 查看精彩图片

告诉他细节不够丰富后,这种表现已经十分优秀了,这个题目考察阅读理解+svg 代码生成+审美,很多大号模型表现也不一定这么好

打开网易新闻 查看精彩图片

对比 GLM-4.7-Flash-AWQ-4bit

打开网易新闻 查看精彩图片

平均 46 t/s

打开网易新闻 查看精彩图片

测试并发能力,失败告终

打开网易新闻 查看精彩图片

找 GPT5.4 读了文档加了一些支持并发,激发性能的参数,结果依然如上,没有改善,或许默认的 4 并发会好一些,没在尝试。

docker run --rm --runtime nvidia  --gpus "device=4" -v /data/llm-models:/models --name qwen35-27 -p 8005:8000 ghcr.io/ggml-org/llama.cpp:server-cuda  -m /models/jackrong/Qwen3.5-27B.Q4_K_M.gguf --port 8000 --host 0.0.0.0 -c 65536  -kvu -ngl 99 --flash-attn on -b 1024 -t 48

,结论:

lama.cpp 并未针对张量并行(Tensor Parallelism)与批推理(Batch Inference)进行优化。只有在进行 LLM 的部分或全部 CPU 卸载时,你才应该使用 llama.cpp。但在多 GPU 配置下,需要经过优化的批推理与 Tensor Parallelism,此时 vLLM 是正确选择。

打开网易新闻 查看精彩图片

llama.cpp 项目 issue 吐槽

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

14 张 RTX 3090 GPU 和 336GB VRAM 的专用 AI 服务器,# Stop Wasting Your Multi-GPU Setup With llama.cpp