实测思维链大变！DeepSeek R1一个“小升级”性能直逼o3，但仍“过度思考”？

人工智能学家

2025-05-29 18:51 ·北京 ·优质互联网领域创作者

来源：AI前线

节前更新似乎已经是 DeepSeek 的惯例了。刚刚，DeepSeek 在 Huggingface 平台开源了 R1 的新版本 DeepSeek-R1-0528。

项目地址：https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

据悉，新版本主要是在推理精度和代码生成速度的升级。在 Live CodeBench 基准测试中，DeepSeek-R1-0528 的性能可以媲美 OpenAI 的 o3（High）版本。

DeepSeek 官方对该版本的介绍是一次“小版本试升级”。不过，目前 DeepSeek 并没有发布有关新版本训练方法的技术报告。

不少用户都第一时间去实测了最新的 DeepSeek R1-0528，并整理出了升级亮点：

现在能够像 Google 模型作深入推理；
改进的写作任务，更自然、格式更好；
独特的推理风格，不仅快速，而且深思熟虑；
长时间思考，每项任务最多 30-60 分钟；
编程能力显著优化。

实测思维链大变！DeepSeek R1一个“小升级”性能直逼o3，但仍“过度思考”？

有实测用户表示，DeepSeek R1-0528 似乎是唯一一个始终正确回答“9.9 - 9.11 是多少”的模型。

实测思维链大变！DeepSeek R1一个“小升级”性能直逼o3，但仍“过度思考”？

但他也称，“从我尝试的编码问题来看，它的性能比旧的 R1 好，但它落后于 o3 和 Claude 4。”

也有用户反映了该版本“过度思考”的问题，表示“给它一个高中数学题，它思考了 6 分钟多才做出回应。”

值得注意的是，R1 的思维链（CoT）行为似乎发生了重大变化。有网友评价，“之前的看起来就像 o 系列的推理，现在的则与 Gemini 类似。”也有网友认为，“无论如何，它的 CoT 更加‘面向用户’。”

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告

（加入未来知识库，全部资料免费阅读和下载）

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴