DeepSeek-V4-Flash 本地部署，2 x H20（96GB版本），性能简测|deepseek|flash|fp|gb|内存|命令提示符|速度

继续看看 V4，本文看下 DeepSeek-V4-Flash 本地部署

我的设备

CPU ：Intel Xeon Platinum 8457C
内存：480 GiB
GPU ：2 x NVIDIA H20，单卡显存 96 GB
驱动版本：580.126.09
CUDA 版本：13.0
系统盘：100G
数据盘：1T

1、模型下载

模型文件 160GB

国内网络，模型下载

modelscope download --model deepseek-ai/DeepSeek-V4-Flash --local_dir /data/models/DeepSeek-V4-Flash

2、vLLM Docker 镜像准备

安装vllm-nightly我从没有成功过，只有Docker最省心

docker pull vllm/vllm-openai:deepseekv4-cu129

大家也看到了，即便是 Flash，能跑得起的设备也很少，AMD 全军覆没

看了几个 issues，消费级英伟达显卡也都不配

上面的启动脚本我的 2xH20 自然也不配，启动 N 次，都是 OOM

不断试错之后，实际使用的脚本：

docker run -d \
  --name vllm-deepseek-v4-flash \
  --restart unless-stopped \
  --gpus all \
  --privileged \
  --ipc=host \
  -p 8000:8000 \
  -v /data/models:/models:ro \
  -e VLLM_ENGINE_READY_TIMEOUT_S=3600 \
  vllm/vllm-openai:deepseekv4-cu129 \
  /models/DeepSeek-V4-Flash \
  --trust-remote-code \
  --kv-cache-dtype fp8 \
  --block-size 256 \
  --enable-expert-parallel \
  --data-parallel-size 2 \
  --gpu-memory-utilization 0.95 \
  --max-model-len 7000 \
  --tokenizer-mode deepseek_v4 \
  --tool-call-parser deepseek_v4 \
  --enable-auto-tool-choice \
  --enforce-eager