马斯克开源的Grok-1，是“电子垃圾”吗？|grok|openai|埃隆_马斯克|插件功能|电子垃圾|马克·扎克伯格

3月18日，马斯克兑现了其开源承诺，xAI悄无声息地开源了其Grok大模型——一个314B的大模型。

在此次开源之前，马斯克已经对这次开源动作进行了预告。尤其是马斯克在3月初状告OpenAI，并指责Open AI不"open"，将从业者对Grok的好奇拉到了顶点。

英伟达网红科学家Jim Fan还感慨道，很好奇"被 Grok 超越是什么感觉"。

但是，或许Jim Fan的期待要暂时落空了。毕竟才刚开源一天，Grok-1已经快被网友骂疯了。

"电子垃圾"，几乎成了它的代名词。

一场全程预告的开源

先来简单回顾一下Grok-1的关键要点。

它是一个314B的大模型，采用了混合专家架构，由8个专家系统组成（其中2个为活跃状态）。该模型在运行时有25%的模型参数会活跃运行，可以更高效地运行。

它也是目前参数量最大的开源大模型之一。

通常来说，参数越多，模型就会越先进、复杂，训练出来的效果就会越好用。Grok-1拥有3140亿个参数，是Llama 2（700亿参数）的 4 倍多，更是远超Mistral 8x7B(120亿个参数)。

xAI此次开源的是其2023年10月预训练阶段时的初始模型版本，使用自定义训练堆栈在 JAX和Rust上开发。它是基于大量文本数据进行训练的，没有针对具体任务进行微调。与X上所使用的Grok聊天机器人在行为和权重版本上都有所不同。

xAI遵照Apache 2.0协议开源，该协议许可证允许用户自由地使用、修改和分发软件，且可用于个人和商业用途。

Grok-1出自xAI，这是马斯克于2023年7月成立的公司。

此前，马斯克曾是 OpenAI 的联合创始人，离开OpenAI 后，马斯克也为这家公司提供了大量的资金支持。

在这次Grok-1开源前，3月1日，马斯克起诉了OpenAI并要求其开源。马斯克认为，OpenAI的技术不应该掌握在OpenAI和微软手中，并表示OpenAI一点也不"open"。

Grok-1开源的程度不算最高。遵照Apache 2.0协议，xAI开放了模型的权重和架构。而一个100%开源的模型，会包括论文、权重、代码、数据、评估和适配。

但这并不是最重要的槽点，使用成本和不成正比的效果，才是让网友们开骂的重点。

Grok-1，"电子垃圾"

虽然Grok-1在GitHub上的Star数已经攀升至21.9k，但在一些专业人士眼中，马斯克的这次开源，好似提供了一个"电子垃圾"。

首先，仅仅是模型下载就让众多开发者傻眼。

打开下载用的磁力链接，映入眼帘的是700多个文件，而这700多个文件，需要占用近300G存储空间。

在Grok-1的GitHub issue区，也有国外开发者打出"Hardware Requirements"字样，对下载这一模型的成本感到震惊。

而这只是下载环节，要真正测试/使用这个模型，似乎也和普通人无关。

众所周知，模型参数越大意味着资源消耗越多。那么测试314B的Grok-1，需要多少资源呢？

根据众多从业者的估算，运行Grok-1至少需要8张H100。而「四木相对论」观察到，目前要买到8张H100，大约需要花费300万人民币。

这意味着，马斯克此次开源的Grok-1，基本和普通开发者无缘，大约只有土豪和财大气粗的大厂才能拥有测试资格。

而才完成亚洲巡游，和三星等企业沟通半导体合作的扎克伯格也被网友恶搞了一段AI评论，称"3140的参数太多，需要一大堆H100才行"。当然，这位"囤卡土豪"还不忘加上一句，"我已经买完了。"

而且，网友们的吐槽并不仅针对存储、推理等资源成本——还因为，拥有314B参数的Grok-1，在效果上并没有体现出与参数规模相配的效果。

参考之前 x.AI release 的 benchmark，可以看到它的效果和GPT-4、Claude 2有着相当的差距，目前相对优于LLaMa 2 70B和GPT-3.5。

再加上和Mistral的对比，可以发现在MATH、GSM8K等指标方面逊色于对方，在MMLU等指标上领先。

但Grok-1 总参数量是 314B，激活参数量是 86B，Mixtral-8x7B 总参数量 45B，激活参数量是 12B。

昆仑万维 AI Infra 负责人成诚在知乎上算了笔账：

"Grok-1 用了 8 倍于 Mixtral-8x7B 的模型大小，但实际效果可能仅和 Mixtral-8x7B 持平。同时，Grok-1 的推理成本是 Mixtral-8x7B 的 10 倍以上：

Grok-1 只能通过 8xA100 / 8xH100 机器推理，且一个模型就独占了一个机器。单机器显存一共 640G，由于参数量已经有 314B 了， bf16 推理参数量就 628G，几乎无法推理完成（无法开 batch size，存 kvcache），所以只能是 int8 量化推理。且 TP8 引入大量的通信，而同等量化下，Mixtral-8x7B 单卡就能推理，无需跨卡通信，吞吐效率远高于 Grok-1 10 倍以上。"

而且，就算在指标上优于LLaMa 2 70B也不是什么非常值得庆幸的事。毕竟，这款模型已经开源了大半年，也建立起自己的开发者生态。

目前，Grok1 的开源 repo：GitHub - xai-org/grok-1: Grok open release 主页没有任何的 benchmark 介绍，实际需要下载测试。真正的效果，只有等土豪玩家和大厂们的测评完才知道。

英伟达网红研究员Jim Fan的期待——希望看到基于Grok1长出的新应用，估计也要等待一段时间。