DeepSeek R2 迟迟不发布的原因找到了。
据金融时报报道,DeepSeek 本来要在 5 月份发布新模型 R2,结果拖到现在,原因竟然是...芯片「不给力」?
事情是这样的:在没有足够的 H20 芯片的情况下,DeepSeek 原本想用华为昇腾芯片来训练新模型,以减少对英伟达技术的依赖。
然而在实际应用中,团队遇到了一些技术障碍,据知情人士透露,华为专门派了一支工程师团队到 DeepSeek 办公室驻场。
报道称,即便有现场支持,也还未能实现稳定的训练运行。DeepSeek 团队最终不得不采用混合方案:使用英伟达芯片进行训练,而将华为芯片用于推理环节。
简单解释一下,训练是指让 AI 模型从海量数据中学习的过程,而推理则是训练完成的模型执行具体任务的阶段,比如响应用户查询。
不过,尽管训练环节遇挫,DeepSeek 并未放弃与华为的合作,双方仍在努力让 R2 模型在推理环节能够「跑通」昇腾芯片。
另据了解,DeepSeek 创始人梁文锋对 R2 的进展很不满意,一直在推动团队投入更多时间来完善模型,加上数据标注也比预期耗时更长,所以发布时间就这样一拖再拖。
值得注意的是,虽然近期市场传言 DeepSeek R2 将于本月中下旬发布,但腾讯科技援引接近该公司的消息源确认,这一传言并不属实,DeepSeek R2 在 8 月内确实没有发布计划。
截至发稿前,DeepSeek 和华为均未对上述报道作出回应。
附上原报道地址:
https://www.ft.com/content/eb984646-6320-4bfe-a78d-a1da2274b092
热门跟贴