DeepSeek R1 表现出色，人工智能行业的反应很强烈！|deepseek|openai|人工智能|推理|算法

DeepSeek R1 已发布已超 24 小时，由于表现出色，人工智能行业的反应很强烈。

DeepSeek R1是一款开源的推理大模型，采用了纯强化学习的方法，实现了接近OpenAI o1的性能水平。这款模型的最大特点是通过强化学习和无监督微调，显著提高了模型的推理能力和思维链长度。DeepSeek R1不仅开源了模型权重，还公开了详细的训练方法和数据策略，为全球开发者提供了宝贵的研究材料。此外，DeepSeek R1还展示了模型蒸馏的能力，可以在较小的模型上实现类似的高性能。

DeepSeek R1 是 100% 的开源产品，价格比 OpenAI o1 便宜 96.4%，性能却与 OpenAI o1 不相上下。

OpenAI o1：每 100 万个输出 tokens 60.00 美元

DeepSeek R1：每 100 万个输出 tokens 2.19 美元

英伟达（NVIDIA）公司高级研究经理 Jim Fan 的意见是：“我们正生活在这样一个时间轴上，一家非美国公司让 OpenAI 最初的使命得以延续——真正开放的前沿研究，赋予所有人权力。DeepSeek-R1 不仅开源了大量模型，还泄露了所有训练秘密。它们也许是第一个显示出 RL flywheel 持续增长的开放源码软件项目。影响可以通过内部实现的‘ASI achieved internally’或‘Project Strawberry’等神话般的名称来实现。也可以通过简单地转储原始算法和 matplotlib 学习曲线来实现影响。从论文来看，模型纯粹由 RL 驱动，完全没有冷启动。让人想起 AlphaZero从零开始掌握围棋、将棋和国际象棋，而无需先模仿人类大师的棋步。这是论文最重要的启示。使用由硬编码规则计算的地面实况奖励。避免使用任何 RL 可以轻易破解的学习奖励模型。随着训练的进行，模型的思考时间会稳步增加——这并不是预先设定好的，而是一种突发特性！自省和探索行为的出现。GRPO 代替 PPO：它去掉了 PPO 中的批评网，改用多个样本的平均奖励。减少内存使用的简单方法。请注意，GRPO 也是 DeepSeek 在 2024 年 2 月发明的......真是一支强大的团队。”

DeepSeek-R1正在接受全球网友真金白银的检验。

为了玩上这样的模型，有人花上10多万元，组7台M4 Pro Mac mini+1台M4 Max Macbook Pro的家用超算。

总计496G显存（64*7+48），才能跑起个4bit量化版，但属实算得上“家用AGI”配置了。

另一个极端是选择R1数据蒸馏版Qwen 1.5B小模型，小到浏览器就能跑，每秒能输出60个tokens。

与此同时，各种榜单也在抓紧测试，纷纷跑出了结果。

沃顿商学院研究人工智能的伊桑-莫利克（Ethan Mollick）教授说，“这是第一个可以在笔记本电脑上本地运行的推理模型！”

Perplexity 公司首席执行官 Aravind Srinivas 说，“DeepSeek 相当于复制了一整个 o1-mini 并将其开源。”

Dean Ball 表示：“DeepSeek r1 对政策的启示：1.在达到与美国机型相似的基准性能方面，中国实验室可能会继续快速跟进。2.DeepSeek 的提炼模型（r1 的缩小版）性能令人印象深刻，这意味着功能强大的推理器将继续广泛扩散，并可在本地硬件上运行，远离任何自上而下的控制制度（包括美国的扩散规则）3.开放模型将对美国产生战略价值，我们需要想办法让更多的前沿开放模型走向世界（我们现在完全依赖元模型，虽然它很棒，但只是一家公司）。为什么 OpenAI/Anthropic 不开源他们的旧模型？这样做有什么坏处？”

Hugging Face公司的Vaibhav Srivastav指出，“DeepSeek 1.5b版本的性能非常惊人，在MATH基准测试中达到了83.9%。15 亿美元做了什么？”

StabilityAI 的创始人 Emad 提到，“前沿实验室需要重新调整对下一个版本的预期。前沿是一个艰难的地方。你能想象一个前沿实验室在筹集了数十亿美元资金后，却因为无法击败 deepseek 而无法发布最新版本吗？”

Menlo Ventures 风险投资人迪迪强调，“与 o1-mini 相比，DeepSeek R1 型号的价格便宜得令人难以置信。DeepSeek 性能与 o1 相当，价格却便宜 25-30 倍！”

Exolabs 公司的 Alex Cheema 希望在家里运行 AGI，下图就是他的 896GB 统一内存方案。

另外，字节也出新品了。前几天，minmax、阶跃星辰也都推出了新品。当然现在DSR1是最亮的仔。