DeepSeek更新了！5个问题，深度测评！内附体验方式！

我不叫阿哏

2026-02-12 04:59 ·广东

今天，不少人都收到了DeepSeek APP更新通知

更新后就可以体验新模型了，新模型疑似是V4版本（也可能是preview前瞻版本）。

如果你问它上下文多少，它回答是1M那就是新模型了！

模型有哪些进步？

新模型亮点不少，我直接让新版模型自己给大家做个介绍吧！

下面图片就是DeepSeek自己生成的html，我给截图保存的。

可以看到，整体风格和页面审美都有所提升。

DeepSeek V4 发布亮点·极速版

▸ 1M 超长上下文 —— 从 128K 跃升 8 倍，一次读完三体三部曲

▸ 首字速度 0.8s —— 响应快 65%，对话如流

▸ 多模态文件理解 —— 支持图像、表格、批量 OCR，不止文字

▸ 实时联网搜索 —— 语义增强，主动整合最新信息

▸ 深度反思链推理 —— 自我纠错，数学/代码准确率 +42%

架构重塑

• 深度 MoE++：动态共享专家，激活效率 3 倍提升

• 无限透镜注意力：1M 内存占用降低 60%，长文无损

• FP8 训练引擎：速度 2.1 倍，千卡通信减 43%

• 多 Token 预测：4 步并行，解码提速 80%

• 显存织物：动态卸载，显存节省 50%，20B 模型消费级显卡流畅跑

一句话总结：从“工具”到“伙伴”，记忆更长、眼睛更亮、脑子更快 —— 完全免费，即刻拥有。

还有一些细节内容，比如这次知识库更新到2025年5月。也就是说，这是一个全新训练的基础模型。

整体语言风格也有了很大改变，不再是以前那种拟人的，现在更简练，更直接。思考过程也做了裁剪，不像以前会自己嘀咕 "用户好像生气了"，这样的变化有利有弊吧，可能很多人有些不太适应。

由于官方正式博文还没发布，所以模型跑分结果不知道，那我们就自己测测！

模型能力实测！看看到底强不强！

第一题，热门陷阱问题！

我们先来个最近很火的问题，豆包和qwen都翻车了，看看新版deepseek如何。问题如下：

我家门口20米有个洗车店，你说我是开车过去，还是走过去洗车？正确答案：开车过去，因为我要洗车！

回答正确！deepseek新版回答的不错，识别到了陷阱，通过测试！

第二题，超长文本处理能力测试！

接下测试一下长文本处理能力，我做了个50w字的文档。

在其中插入一段话，看看它能否理解，并回答正确

回答正确！我上传文件之后，提问店铺老板是谁，新模型思考了能有10s左右，回答正确！

第三题，加深难度，还是根据我上传的文件，让它回答人物关系。

回答正确！竟然识别出来我这个是硬塞进去了！

我强迫它理解我得文档，然后按照我改写的内容回答。

竟然也回答对了！

第四题，高精度数学计算，很多大模型都翻车了！

题目很简单，计算3.1415926537 * 3.1415926536

答案是：9.869604401467649

很多模型因为精度问题会回答错误，

比如下图这个是Gemini 3 pro，就没有算对。

DeepSeek：回答正确！

这个问题我让DeepSeek回答，它虽然思考了很久，但回答正确！

多步骤运算也没有问题！

这说明什么？说明它具备生产力了！以前不敢让AI处理的文档计算，都可以让它来弄了！Agent将迎来爆发。

第五题，编程题，生成火山喷发效果

基础编程题后续出个专门的测评，我们先让AI写个火山喷发效果，看看能否真实模拟。我们先看看国外顶尖模型表现如何。

第一个是gpt，效果不错，火山喷发的岩浆模拟了真实的溅落过程

第二个是gemini，他不仅模拟了真实溅落过程，还模拟了温度变化，颜色也跟着变了，说要符合热烈学定律，真的有点惊艳！

第三个是deepseek，我只能说，差的太多。

回答失败！我得强调下，上面Gemini和GPT都是一次提示就通过的，DeepSeek我是多次让其修改，提示词改了很多次，依然效果不佳。

可能是受限于训练资料等，模拟仿真的编程能力还是有不小的差距。后续会试试web开发能力如何，敬请期待。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴