今天,不少人都收到了DeepSeek APP更新通知
更新后就可以体验新模型了,新模型疑似是V4版本(也可能是preview前瞻版本)。
如果你问它上下文多少,它回答是1M那就是新模型了!
模型有哪些进步?
新模型亮点不少,我直接让新版模型自己给大家做个介绍吧!
下面图片就是DeepSeek自己生成的html,我给截图保存的。
可以看到,整体风格和页面审美都有所提升。
DeepSeek V4 发布亮点·极速版
▸ 1M 超长上下文 —— 从 128K 跃升 8 倍,一次读完三体三部曲
▸ 首字速度 0.8s —— 响应快 65%,对话如流
▸ 多模态文件理解 —— 支持图像、表格、批量 OCR,不止文字
▸ 实时联网搜索 —— 语义增强,主动整合最新信息
▸ 深度反思链推理 —— 自我纠错,数学/代码准确率 +42%
架构重塑
• 深度 MoE++:动态共享专家,激活效率 3 倍提升
• 无限透镜注意力:1M 内存占用降低 60%,长文无损
• FP8 训练引擎:速度 2.1 倍,千卡通信减 43%
• 多 Token 预测:4 步并行,解码提速 80%
• 显存织物:动态卸载,显存节省 50%,20B 模型消费级显卡流畅跑
一句话总结:从“工具”到“伙伴”,记忆更长、眼睛更亮、脑子更快 —— 完全免费,即刻拥有。
还有一些细节内容,比如这次知识库更新到2025年5月。也就是说,这是一个全新训练的基础模型。
整体语言风格也有了很大改变,不再是以前那种拟人的,现在更简练,更直接。思考过程也做了裁剪,不像以前会自己嘀咕 "用户好像生气了",这样的变化有利有弊吧,可能很多人有些不太适应。
由于官方正式博文还没发布,所以模型跑分结果不知道,那我们就自己测测!
模型能力实测!看看到底强不强!
第一题,热门陷阱问题!
我们先来个最近很火的问题,豆包和qwen都翻车了,看看新版deepseek如何。问题如下:
我家门口20米有个洗车店,你说我是开车过去,还是走过去洗车? 正确答案:开车过去,因为我要洗车!
回答正确!deepseek新版回答的不错,识别到了陷阱,通过测试!
第二题,超长文本处理能力测试!
接下测试一下长文本处理能力,我做了个50w字的文档。
在其中插入一段话,看看它能否理解,并回答正确
回答正确!我上传文件之后,提问店铺老板是谁,新模型思考了能有10s左右,回答正确!
第三题,加深难度,还是根据我上传的文件,让它回答人物关系。
回答正确!竟然识别出来我这个是硬塞进去了!
我强迫它理解我得文档,然后按照我改写的内容回答。
竟然也回答对了!
第四题,高精度数学计算,很多大模型都翻车了!
题目很简单,计算3.1415926537 * 3.1415926536
答案是:9.869604401467649
很多模型因为精度问题会回答错误,
比如下图这个是Gemini 3 pro,就没有算对。
DeepSeek:回答正确!
这个问题我让DeepSeek回答,它虽然思考了很久,但回答正确!
多步骤运算也没有问题!
这说明什么?说明它具备生产力了!以前不敢让AI处理的文档计算,都可以让它来弄了!Agent将迎来爆发。
第五题,编程题,生成火山喷发效果
基础编程题后续出个专门的测评,我们先让AI写个火山喷发效果,看看能否真实模拟。我们先看看国外顶尖模型表现如何。
第一个是gpt,效果不错,火山喷发的岩浆模拟了真实的溅落过程
第二个是gemini,他不仅模拟了真实溅落过程,还模拟了温度变化,颜色也跟着变了,说要符合热烈学定律,真的有点惊艳!
第三个是deepseek,我只能说,差的太多。
回答失败!我得强调下,上面Gemini和GPT都是一次提示就通过的,DeepSeek我是多次让其修改,提示词改了很多次,依然效果不佳。
可能是受限于训练资料等,模拟仿真的编程能力还是有不小的差距。后续会试试web开发能力如何,敬请期待。
热门跟贴