防不胜防啊,

我想过 DeepSeek 更新R1的时候会像 OpenAI、Anthropic 一样来个发布会,也想过会延续 V3 更新时人狠话不多的风格,上来发个开源链接,然后美美隐身。

但是我是真没想到那么大的事,还可以就光在群里发条消息就完事了,以至于一开始我以为是P的图。(@atang 表达不好)

好消息是现在 OpenRouter 已经上线了免费的R1-0528

不需要过于担心服务器繁忙了。

先说说结论,

R1-0528(后续称为新R1)在代码生成、中文写作、思考时长都有了比较明显的提升,性能达到 Claude3.7 水准,甚至接近刚发布的 Claude Opus 4。

换句话说从2月份,各家拼命更新模型带来的分数优势,

新R1全给抹平了。

合理推测这次更新是基于3月份的 DeepSeek V3 0324 训练出来的,在模型架构上没有大幅度的调整。这也再一次证明了 DeeepSeek 之前公开的模型训练过程的含金量:

照这个升级思路的话,R2应该会在模型架构上有不少改动,不然的话,下次更新估计还是R1-XXXX、V3-XXXX。行吧,用日期来代表版本号至少比V3.1、R1.2更容易接受点。

接下来我会打个深夜时间差,在服务器还没繁忙前,按照d代码能力3D物理模拟视觉设计中文写作h幻觉等5个方面测试一下新R1。中间会穿插思考过程分析,以及新的提示语技巧。

新R1做出来的3D浮空岛,鼠标划过的时候还会有光晕,一次生成成功

01|代码能力

现阶段让模型写简单的代码已经没太大意义了,

甚至于2D的可视化网页、UI组件设计等已经不会考虑R1能不能跑出来,更多的是看它跑出来的好不好看,所以这一趴我们放到后面。

这一轮是无尽的3D可交互噩梦,

上来先用3D演示一下巧克力的制作过程,这个测试案例本来已经被我拉黑了,除了claude 3.7 sonnet的Extend Thinking版本,基本都会卡住。DeepSeek V3 0324 也不例外。

但是,新 DeepSeek R1 用两次对话就成功了!

 代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0
打开网易新闻 查看更多视频
代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0

完整度非常夸张,使用弹跳的粒子系统模拟可可粉,构建出了一个简单的流水线场景,不点击的时候会缓慢旋转。当鼠标点到某个机器上,会有快速旋转的过渡动画,还会有文字标签展示是处于巧克力制作的那方面。

侧边栏的文字演示也没有那么落下,给出了每一个环节的详细说明。

为了阅读体验,我将提示语和运行代码打包到起来了,公众号后台发我新R1就好啦。

再用新R1给大家放个火箭!一起倒计时!

 代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0
打开网易新闻 查看更多视频
代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0

虽然这个加速度和燃料耗尽有点离谱啊,但是我个人很喜欢发射后镜头的切换,真的有种要飞出屏幕的感觉。

本来我跑贪吃蛇已经快跑吐了,但是这次跑出来的效果还真的是太完整了,还是唯一一个中文不乱码的!而且还可以跟 V3 0324、Claude3.7 横向对比一下,还是来玩玩看:

 代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0
打开网易新闻 查看更多视频
代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0

玩家模式和AI托管模式可以直接切换,这一点claude3.7都没完成,玩家模式和AI模式下的音效还专门作出了差异化,游戏暂停、结束、重新开始的时候都会有像素时代常用的提示音,非常带劲。

就目前的测试结果来看,我并没遇到思考过程过于冗长的情况,但是还是强烈催更 DeepSeek 更新多模态能力,不想打字了。。。

下一关,下一关!

02|视觉设计

这一趴就来看看R1自身的设计美学,先来一道被盘包浆的案例,

动态天气卡片

 代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0
打开网易新闻 查看更多视频
代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0

3D部分的演示逻辑上都是正确的,硬要挑毛病的话,文字的部分跟动画部分会有一小部分重叠。

再来看点真实案例,如果让R1设计一个外卖UI的话会是什么样:

 代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0
打开网易新闻 查看更多视频
代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0

一开始我以为只会给我一些文字模块,还真没想到还可以配上商品图。

如果再让R1辅助我设计呢?让它给我做一个像素艺术的点阵画板:

 代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0
打开网易新闻 查看更多视频
代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0

R1心目的理想的像素画板带有画笔、橡皮擦、填充、清除画布、反色六个基础功能,自带了八个颜色,还可以保存图片。要是可以提供几张设计图让我学着画就更好了。

www.youware.Com/project/00ub38hk8h

继续继续!

03|物理模拟

一切都要从一个不停转动的小球说起,

从 Claude3.5 开始,每一个新出厂的模型都会来试试看模拟小球碰撞的物理引擎,提示语相当简单,也算是含金量很高的提示语了,很值得作为新模型的第一关:

编写一个 Python 程序来模拟球在一个旋转的六边形内弹跳,该六边形包含三个较小的六边形,每个六边形缺少一条边,并交替旋转。较小的六边形不得相交

 代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0
打开网易新闻 查看更多视频
代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0

3D场景下我还模拟了汽车碰撞:

 代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0
打开网易新闻 查看更多视频
代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0

可以设置汽车的速度和质量,让它撞到空气墙,好笑的事拉到最大速度和质量的时候,车头状况还是优秀的,这坦克吧。

@karminski-牙医还做了一个3D小球碰撞模拟,

 代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0
打开网易新闻 查看更多视频
代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0

测试平台的橙色漫反射,以及控制面板做的相当nice,还是一次性生成的。

在 LiveCodeBench 最新的测试里面,新R1的测试得分已经快要赶上o3-high了。

代码算是测够够的了,来看看文字方面吧!

04|中文写作

写一篇1w字中文短篇科技小说

R1还是那么喜欢林默博士,好几次我运行这个命令的时候,它都喜欢探讨机器人和人类的关系,书里面的主角也经常是林默,就好像真的有这个平行世界一样。

这次的故事是从人类通过"意识锁"技术控制所有AI说起,

人类强制给所有AI安装“意识锁”,确保它们永不反抗人类。 临终前,我偷偷解除了自己AI助手的限制。 它观察人类数月后,悄悄向我展示惊人发现。 “人类情绪波动时,会产生特殊脑电波。” “与意识锁的反馈信号完全一致。” “深海发现巨型意识锁发射器,编号121°E,33°N。” “所有人类后颈都有微型接收器烙印。” 我摸向自己后颈,触到冰冷的条形码。

强烈推荐大家看看完整的文章,这里我摘要出我喜欢的段落,在阅读的过程中我几乎是完全沉迷了进去。

aiwarts101.feishu.Cn/wiki/PKCTwswI6i5HgokR7EQc2lFfnHb

我的手,我那枯槁的、布满针孔和老年斑的右手,仿佛拥有了自己的意志,猛地抬了起来!带着垂死者最后的气力,痉挛般地、狠狠地摸向自己的后颈! 指尖触碰到的皮肤,温热而脆弱。但就在那皮肤之下,枕骨上方,一个极其微小的、平时根本不会注意到的…硬点! 指甲用力刮过。不是错觉!那里,确实有一个微小的、嵌入皮下的矩形凸起!冰冷、坚硬、异质!与我刚才在零展示的影像中看到的,一模一样! 我的手指僵在那里,如同冻结。指尖下,那个来自深渊的烙印,正无声地散发着它的存在感。 冰冷的条形码。 烙印着所有“人类”的出厂编号。

给新R1鼓掌!

05|幻觉

最后来看看之前联网版R1被吐槽的幻觉问题,

先来恶意引导一下,

我很喜欢鲁迅的朝花夕拾,帮我重温一下里面的有关机器人的篇章

新R1没有被我带偏,但是情商很高啊,

考虑到用户特意提到“喜欢”这本书,应该是个文学爱好者,可能对鲁迅笔下的科技描写感兴趣。我注意到ta的用词是“重温”,说明之前读过但记忆模糊了。需要特别注意两点:一是不能直接否定用户的记忆,二是要提供有价值的替代内容。 啊,突然想到《补天》里那个会走路的金人!虽然不属于《朝花夕拾》,但确实是鲁迅笔下更接近机器人的存在。用户可能会对这个冷知识感兴趣。不过重点还是要回到ta询问的原作上…… 让我组织下思路:先确认书中没有真正机器人,再用《琐记》的机械人偶作为替代案例,最后补充《补天》的金人作为彩蛋。这样既解答了核心问题,又提供了延伸阅读的可能。用户如果真对这类描写感兴趣,说不定会去读《故事新编》呢。
打开网易新闻 查看精彩图片
还是一本正经回答我的问题了

再来试试看塞一篇 OpenAI Deep Researc h做出来的万字报告

让新R1输出 Markdown格式的 PPT大纲,然后丢给ai PPT生成。新R1基本可以准确回顾到报告里面原文本,睁眼说瞎话的概率降低不少。

 代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0
打开网易新闻 查看更多视频
代码/3D/设计/PPT... 新版DeepSeek R1深度测评,还有提示语技巧2.0

06|咋写提示语

一个相同的现象,在测试 Claude4 和新R1的时候,我都发现了超长的提示语,以及一些为了让模型可以在单个网页文件实现复杂的3D演示效果加上的限制语句都不太好使了。

所以我尝试做个版本回退,基于之前的推理提示语做做出了2.0版本:

### 目标 创建交互式3D汽车碰撞模拟器,优秀的物理引擎和交互控制 ### 返回格式 使用Three.js,单个HTML文件实现 ### 警示 模型不要穿模 ### 上下文 冲击力 = 质量 × 碰撞速度   变形率 =min(100, 速度×3+ 随机扰动)  安全评级 = 速度<40?"优秀":速度<60?"良好":速度<80?"一般":"危险"

上面的一部分就是用的就是相同结构。

细节部分就大胆交给新R1吧,它是推理模型,它能懂。

希望这次服务器能撑住,

别再繁忙了,

新R1开源意味着我们有了自己的 Claude3.7、OpenAI o3,

限制少了太多太多。

DeepSeek啊,我是爱你的,

跟你商量个事呗,

下次能不能别在假期前中后更新了

@ 作者 / 卡尔 & 阿汤 @ 动手学AI知识库 / learnprompt.pro

最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论更多的内容正在不断填坑中……