DeepSeek突然更新,本期视频实测DeepSeek R1模型升级后的能力,通过五大场景测试:1. 生成「特厨隋卞合同争议」网易风格交互网页(70分);2. 编写3×3井字游戏;3. 实现可调色的绘图板(修复鼠标追踪Bug);4. 美食文本翻译对比GPT-4;5. 李诞风格脱口秀创作。测试显示R1编程能力突出,尤其在画板修复和图片画廊任务中效果优于Claude 4,国产模型展现强大竞争力。

时间戳:

00:00:03 - DeepSeek R1低调更新,实际升级幅度或超官方描述

00:01:18 - 测试1:生成「隋卞合同争议」交互式网页(网易新闻风格)

00:02:49 - 网页测评结果:呈现核心争议点/行业反思,获评70分

00:03:01 - 测试2:创建3×3井字游戏(功能正常)

00:03:52 - 测试3:绘图板初版Bug(线条不跟随鼠标)

00:05:12 - 绘图板修复后效果:完美支持调色/橡皮擦

00:05:37 - 测试4:美食文本翻译对比(GPT-4 vs 人工译者)

00:07:58 - 测试5:李诞风格脱口秀脚本生成(AI抢邀请码主题)

00:09:24 - 终极挑战:图片画廊灯箱效果(优于Claude 4)

00:11:34 - 结论:R1编程能力达到国际一线水平