DeepSeek R1 已发布已超 24 小时,由于表现出色,人工智能行业的反应很强烈。
DeepSeek R1是一款开源的推理大模型,采用了纯强化学习的方法,实现了接近OpenAI o1的性能水平。这款模型的最大特点是通过强化学习和无监督微调,显著提高了模型的推理能力和思维链长度。DeepSeek R1不仅开源了模型权重,还公开了详细的训练方法和数据策略,为全球开发者提供了宝贵的研究材料。此外,DeepSeek R1还展示了模型蒸馏的能力,可以在较小的模型上实现类似的高性能。
DeepSeek R1 是 100% 的开源产品,价格比 OpenAI o1 便宜 96.4%,性能却与 OpenAI o1 不相上下。
OpenAI o1:每 100 万个输出 tokens 60.00 美元
DeepSeek R1:每 100 万个输出 tokens 2.19 美元
英伟达(NVIDIA)公司高级研究经理 Jim Fan 的意见是:“我们正生活在这样一个时间轴上,一家非美国公司让 OpenAI 最初的使命得以延续——真正开放的前沿研究,赋予所有人权力。DeepSeek-R1 不仅开源了大量模型,还泄露了所有训练秘密。它们也许是第一个显示出 RL flywheel 持续增长的开放源码软件项目。影响可以通过内部实现的‘ASI achieved internally’或‘Project Strawberry’等神话般的名称来实现。也可以通过简单地转储原始算法和 matplotlib 学习曲线来实现影响。从论文来看,模型纯粹由 RL 驱动,完全没有冷启动。让人想起 AlphaZero从零开始掌握围棋、将棋和国际象棋,而无需先模仿人类大师的棋步。这是论文最重要的启示。使用由硬编码规则计算的地面实况奖励。避免使用任何 RL 可以轻易破解的学习奖励模型。随着训练的进行,模型的思考时间会稳步增加——这并不是预先设定好的,而是一种突发特性!自省和探索行为的出现。GRPO 代替 PPO:它去掉了 PPO 中的批评网,改用多个样本的平均奖励。减少内存使用的简单方法。请注意,GRPO 也是 DeepSeek 在 2024 年 2 月发明的......真是一支强大的团队。”
DeepSeek-R1正在接受全球网友真金白银的检验。
为了玩上这样的模型,有人花上10多万元,组7台M4 Pro Mac mini+1台M4 Max Macbook Pro的家用超算。
总计496G显存(64*7+48),才能跑起个4bit量化版,但属实算得上“家用AGI”配置了。
另一个极端是选择R1数据蒸馏版Qwen 1.5B小模型,小到浏览器就能跑,每秒能输出60个tokens。
与此同时,各种榜单也在抓紧测试,纷纷跑出了结果。
沃顿商学院研究人工智能的伊桑-莫利克(Ethan Mollick)教授说,“这是第一个可以在笔记本电脑上本地运行的推理模型!”
Perplexity 公司首席执行官 Aravind Srinivas 说,“DeepSeek 相当于复制了一整个 o1-mini 并将其开源。”
Dean Ball 表示:“DeepSeek r1 对政策的启示:1.在达到与美国机型相似的基准性能方面,中国实验室可能会继续快速跟进。2.DeepSeek 的提炼模型(r1 的缩小版)性能令人印象深刻,这意味着功能强大的推理器将继续广泛扩散,并可在本地硬件上运行,远离任何自上而下的控制制度(包括美国的扩散规则)3.开放模型将对美国产生战略价值,我们需要想办法让更多的前沿开放模型走向世界(我们现在完全依赖元模型,虽然它很棒,但只是一家公司)。为什么 OpenAI/Anthropic 不开源他们的旧模型?这样做有什么坏处?”
Hugging Face公司的Vaibhav Srivastav指出,“DeepSeek 1.5b版本的性能非常惊人,在MATH基准测试中达到了83.9%。15 亿美元做了什么?”
StabilityAI 的创始人 Emad 提到,“前沿实验室需要重新调整对下一个版本的预期。前沿是一个艰难的地方。你能想象一个前沿实验室在筹集了数十亿美元资金后,却因为无法击败 deepseek 而无法发布最新版本吗?”
Menlo Ventures 风险投资人迪迪强调,“与 o1-mini 相比,DeepSeek R1 型号的价格便宜得令人难以置信。DeepSeek 性能与 o1 相当,价格却便宜 25-30 倍!”
Exolabs 公司的 Alex Cheema 希望在家里运行 AGI,下图就是他的 896GB 统一内存方案。
另外,字节也出新品了。前几天,minmax、阶跃星辰也都推出了新品。当然现在DSR1是最亮的仔。
热门跟贴