【ZOL中关村在线原创评测】4月24日,DeepSeek V4预览版正式上线并且同步开源,直接拿下了开源模型的NO.1的王座,可以说是在五一假期前给AI行业带来了新的震撼。
DeepSeek V4 Pro版拥有1.6万亿参数,激活参数仅49B,极致的稀疏化设计兼顾了算力成本与token成本。与更大参数量的闭源模型相比,V4在编程和数学解题领域达到了同等量级。此外,V4 Flash版本的成本优势相当明显,百万token输入价格仅0.02元,输出仅2元,V4 Pro版本的输入价格仅0.025元,输出价格也仅为6元。可以说是加量不加价的一款开源大模型,而且这也意味着百万超长上下文成为了官方服务的出厂标配,而不再是需要花很多的成本的增值服务。
目前,普通用户也可以通过LM Studio或者Ollama等工具来本地部署和使用DeepSeek V4,不过鉴于原本模型的参数量过于庞大,普通硬件很难带动,所以笔者建议个人使用的话可以下载Qwen 3.5-9B-DeepSeek V4-Flash版模型,这个模型以Qwen 3.5为基础,通过DeepSeek V4蒸馏高质量数据,形成了仅9B参数量的蒸馏模型,对于普通用户而言是足够用了。
笔者使用一台AMD锐龙AI Max+ 395平台的机器部署了Qwen 3.5-9B-DeepSeek V4-Flash,采用Q4_K_S量化,并且进行了简单测试,下面来看看具体的表现。
首先测试平台搭载的AMD锐龙AI Max+ 395处理器,是64GB统一内存版本,GPU部分同样搭载的是Radeon 8060S,并且配备了1TB PCIe 4.0固态硬盘。
在测试Qwen 3.5-9B-DeepSeek V4-Flash之前,我们先看看常见大模型的推理表现。
首先通过UL Procyon大语言模型测试可以看到,PHI 3.5生成速度达到了65.63 tokens/s,MISTRAL 7B生成速度达到了42.43 tokens/s,Llama 3.1生成速度为36.65 tokens/s,Llama 2生成速度为24.73 tokens/s,本地部署和使用小参数量大模型非常轻松。
另外笔者也测试了一些其它的常见大模型,如GPT-OSS-20B、DeepSeek-R1-14B等等,锐龙AI Max+ 395都能轻松胜任本地推理。
下面我们看看Qwen 3.5-9B-DeepSeek V4-Flash的表现。
既然DeepSeek V4擅长编程与数学,那么我们针对性地准备了两个问题。不过在数学问题上,我们刻意没有给出完整的条件,这在此前的很多大模型测试中都对其造成了暴击,导致不少大模型进入死循环,那么DeepSeek V4能够发现我们提出的问题本身就有问题,一起来看看吧。
在运行Qwen 3.5-9B-DeepSeek V4-Flash时,内存占用大约为18.6GB,GPU虽然没有100%占满,但也接近90%。
我们先看看DeepSeek V4在编程上的能力,笔者提出的要求是“通过Enum枚举同一标签或一系列常量的集合”,这个要求并不难实现,但是可以通过很多种方法实现。此前的DeepSeek R1或者其它大模型在给出方案时,往往不够全面。
可以看到,DeepSeek V4推理耗时27.63秒。
总计给出了6种实现方法以及对应代码。笔者请教了专业的程序员老师,他对这些答案给出了非常高的评价。
最终生成速度为8.14 tok/s,总生成token数为1862个。虽然不够快,但是能用,而且答案质量与其它9B参数大模型相比要好很多。
接下来看看数学问题,我们给出的问题是“当m为何值时,方程3x^2+2x+m-8=0”,这里我们特意没有给出m的完整条件。此前这个问题难倒了很多大模型,使其陷入死循环的思考之中,而且一些大模型无法意识到条件缺失,即便给出答案往往也是在乱答,DeepSeek V4表现如何?一起来看看。
在进行推理时,DeepSeek V4第一时间就提示我们这个问题缺失条件,接下来DeepSeek V4做了几种条件的设定与解释,总体推理耗时1分52秒。此前我们测试的某8B模型单单在推理这一步就陷入了长达50分钟的思考,看来DeepSeek V4并没有落入我们预设的陷阱。
最终DeepSeek V4根据设定的不同条件,给出了这个问题的多种答案,总体生成速度为8.01 tok/s,总生成token数为1673个。
此前不少大模型在14B参数量以下是基本没法用的,生成的答案相当不靠谱,且遇到一些陷阱问题时会陷入死循环,或者给出一些错误答案或极其简单的答案。而Qwen 3.5-9B-DeepSeek V4-Flash虽然参数量只有9B,但是从DeepSeek V4中蒸馏出来高质量数据后,整个大模型的能力相当靠谱,后续再做一些推理速度方面的优化,完全是可以部署在本地使用的。
热门跟贴