锐龙AI Max+ 395本地部署实战DeepSeek V4蒸馏模型|deepseek|大模型|推理|编程|锐龙aimax

【ZOL中关村在线原创评测】4月24日，DeepSeek V4预览版正式上线并且同步开源，直接拿下了开源模型的NO.1的王座，可以说是在五一假期前给AI行业带来了新的震撼。

DeepSeek V4 Pro版拥有1.6万亿参数，激活参数仅49B，极致的稀疏化设计兼顾了算力成本与token成本。与更大参数量的闭源模型相比，V4在编程和数学解题领域达到了同等量级。此外，V4 Flash版本的成本优势相当明显，百万token输入价格仅0.02元，输出仅2元，V4 Pro版本的输入价格仅0.025元，输出价格也仅为6元。可以说是加量不加价的一款开源大模型，而且这也意味着百万超长上下文成为了官方服务的出厂标配，而不再是需要花很多的成本的增值服务。

目前，普通用户也可以通过LM Studio或者Ollama等工具来本地部署和使用DeepSeek V4，不过鉴于原本模型的参数量过于庞大，普通硬件很难带动，所以笔者建议个人使用的话可以下载Qwen 3.5-9B-DeepSeek V4-Flash版模型，这个模型以Qwen 3.5为基础，通过DeepSeek V4蒸馏高质量数据，形成了仅9B参数量的蒸馏模型，对于普通用户而言是足够用了。

笔者使用一台AMD锐龙AI Max+ 395平台的机器部署了Qwen 3.5-9B-DeepSeek V4-Flash，采用Q4_K_S量化，并且进行了简单测试，下面来看看具体的表现。

首先测试平台搭载的AMD锐龙AI Max+ 395处理器，是64GB统一内存版本，GPU部分同样搭载的是Radeon 8060S，并且配备了1TB PCIe 4.0固态硬盘。

在测试Qwen 3.5-9B-DeepSeek V4-Flash之前，我们先看看常见大模型的推理表现。

首先通过UL Procyon大语言模型测试可以看到，PHI 3.5生成速度达到了65.63 tokens/s，MISTRAL 7B生成速度达到了42.43 tokens/s，Llama 3.1生成速度为36.65 tokens/s，Llama 2生成速度为24.73 tokens/s，本地部署和使用小参数量大模型非常轻松。

另外笔者也测试了一些其它的常见大模型，如GPT-OSS-20B、DeepSeek-R1-14B等等，锐龙AI Max+ 395都能轻松胜任本地推理。

下面我们看看Qwen 3.5-9B-DeepSeek V4-Flash的表现。

既然DeepSeek V4擅长编程与数学，那么我们针对性地准备了两个问题。不过在数学问题上，我们刻意没有给出完整的条件，这在此前的很多大模型测试中都对其造成了暴击，导致不少大模型进入死循环，那么DeepSeek V4能够发现我们提出的问题本身就有问题，一起来看看吧。

在运行Qwen 3.5-9B-DeepSeek V4-Flash时，内存占用大约为18.6GB，GPU虽然没有100%占满，但也接近90%。

我们先看看DeepSeek V4在编程上的能力，笔者提出的要求是“通过Enum枚举同一标签或一系列常量的集合”，这个要求并不难实现，但是可以通过很多种方法实现。此前的DeepSeek R1或者其它大模型在给出方案时，往往不够全面。

可以看到，DeepSeek V4推理耗时27.63秒。

总计给出了6种实现方法以及对应代码。笔者请教了专业的程序员老师，他对这些答案给出了非常高的评价。

最终生成速度为8.14 tok/s，总生成token数为1862个。虽然不够快，但是能用，而且答案质量与其它9B参数大模型相比要好很多。

接下来看看数学问题，我们给出的问题是“当m为何值时,方程3x^2+2x+m-8=0”，这里我们特意没有给出m的完整条件。此前这个问题难倒了很多大模型，使其陷入死循环的思考之中，而且一些大模型无法意识到条件缺失，即便给出答案往往也是在乱答，DeepSeek V4表现如何？一起来看看。

在进行推理时，DeepSeek V4第一时间就提示我们这个问题缺失条件，接下来DeepSeek V4做了几种条件的设定与解释，总体推理耗时1分52秒。此前我们测试的某8B模型单单在推理这一步就陷入了长达50分钟的思考，看来DeepSeek V4并没有落入我们预设的陷阱。

最终DeepSeek V4根据设定的不同条件，给出了这个问题的多种答案，总体生成速度为8.01 tok/s，总生成token数为1673个。

此前不少大模型在14B参数量以下是基本没法用的，生成的答案相当不靠谱，且遇到一些陷阱问题时会陷入死循环，或者给出一些错误答案或极其简单的答案。而Qwen 3.5-9B-DeepSeek V4-Flash虽然参数量只有9B，但是从DeepSeek V4中蒸馏出来高质量数据后，整个大模型的能力相当靠谱，后续再做一些推理速度方面的优化，完全是可以部署在本地使用的。