3月18日,马斯克兑现了其开源承诺,xAI悄无声息地开源了其Grok大模型——一个314B的大模型。

打开网易新闻 查看精彩图片

在此次开源之前,马斯克已经对这次开源动作进行了预告。尤其是马斯克在3月初状告OpenAI,并指责Open AI不"open",将从业者对Grok的好奇拉到了顶点。

英伟达网红科学家Jim Fan还感慨道,很好奇"被 Grok 超越是什么感觉"。

但是,或许Jim Fan的期待要暂时落空了。毕竟才刚开源一天,Grok-1已经快被网友骂疯了。

"电子垃圾",几乎成了它的代名词。

一场全程预告的开源

一场全程预告的开源

先来简单回顾一下Grok-1的关键要点。

它是一个314B的大模型,采用了混合专家架构,由8个专家系统组成(其中2个为活跃状态)。该模型在运行时有25%的模型参数会活跃运行,可以更高效地运行。

它也是目前参数量最大的开源大模型之一。

通常来说,参数越多,模型就会越先进、复杂,训练出来的效果就会越好用。Grok-1拥有3140亿个参数,是Llama 2(700亿参数)的 4 倍多,更是远超Mistral 8x7B(120亿个参数)。

xAI此次开源的是其2023年10月预训练阶段时的初始模型版本,使用自定义训练堆栈在 JAX和Rust上开发。它是基于大量文本数据进行训练的,没有针对具体任务进行微调。与X上所使用的Grok聊天机器人在行为和权重版本上都有所不同。

xAI遵照Apache 2.0协议开源,该协议许可证允许用户自由地使用、修改和分发软件,且可用于个人和商业用途。

Grok-1出自xAI,这是马斯克于2023年7月成立的公司。

此前,马斯克曾是 OpenAI 的联合创始人,离开OpenAI 后,马斯克也为这家公司提供了大量的资金支持。

在这次Grok-1开源前,3月1日,马斯克起诉了OpenAI并要求其开源。马斯克认为,OpenAI的技术不应该掌握在OpenAI和微软手中,并表示OpenAI一点也不"open"。

打开网易新闻 查看精彩图片

Grok-1开源的程度不算最高。遵照Apache 2.0协议,xAI开放了模型的权重和架构。而一个100%开源的模型,会包括论文、权重、代码、数据、评估和适配。

但这并不是最重要的槽点,使用成本和不成正比的效果,才是让网友们开骂的重点。

Grok-1,"电子垃圾"

虽然Grok-1在GitHub上的Star数已经攀升至21.9k,但在一些专业人士眼中,马斯克的这次开源,好似提供了一个"电子垃圾"。

首先,仅仅是模型下载就让众多开发者傻眼。

打开下载用的磁力链接,映入眼帘的是700多个文件,而这700多个文件,需要占用近300G存储空间。

在Grok-1的GitHub issue区,也有国外开发者打出"Hardware Requirements"字样,对下载这一模型的成本感到震惊。

打开网易新闻 查看精彩图片

而这只是下载环节,要真正测试/使用这个模型,似乎也和普通人无关。

众所周知,模型参数越大意味着资源消耗越多。那么测试314B的Grok-1,需要多少资源呢?

根据众多从业者的估算,运行Grok-1至少需要8张H100。而「四木相对论」观察到,目前要买到8张H100,大约需要花费300万人民币。

这意味着,马斯克此次开源的Grok-1,基本和普通开发者无缘,大约只有土豪和财大气粗的大厂才能拥有测试资格。

打开网易新闻 查看精彩图片

而才完成亚洲巡游,和三星等企业沟通半导体合作的扎克伯格也被网友恶搞了一段AI评论,称"3140的参数太多,需要一大堆H100才行"。当然,这位"囤卡土豪"还不忘加上一句,"我已经买完了。"

打开网易新闻 查看精彩图片

而且,网友们的吐槽并不仅针对存储、推理等资源成本——还因为,拥有314B参数的Grok-1,在效果上并没有体现出与参数规模相配的效果。

参考之前 x.AI release 的 benchmark,可以看到它的效果和GPT-4、Claude 2有着相当的差距,目前相对优于LLaMa 2 70B和GPT-3.5。

打开网易新闻 查看精彩图片

再加上和Mistral的对比,可以发现在MATH、GSM8K等指标方面逊色于对方,在MMLU等指标上领先。

打开网易新闻 查看精彩图片

但Grok-1 总参数量是 314B, 激活参数量是 86B,Mixtral-8x7B 总参数量 45B,激活参数量是 12B。

昆仑万维 AI Infra 负责人成诚在知乎上算了笔账:

"Grok-1 用了 8 倍于 Mixtral-8x7B 的模型大小,但实际效果可能仅和 Mixtral-8x7B 持平。同时,Grok-1 的推理成本是 Mixtral-8x7B 的 10 倍以上:

Grok-1 只能通过 8xA100 / 8xH100 机器推理,且一个模型就独占了一个机器。单机器显存一共 640G, 由于参数量已经有 314B 了, bf16 推理参数量就 628G,几乎无法推理完成(无法开 batch size,存 kvcache),所以只能是 int8 量化推理。 且 TP8 引入大量的通信,而同等量化下,Mixtral-8x7B 单卡就能推理,无需跨卡通信,吞吐效率远高于 Grok-1 10 倍以上。"

而且,就算在指标上优于LLaMa 2 70B也不是什么非常值得庆幸的事。毕竟,这款模型已经开源了大半年,也建立起自己的开发者生态。

目前,Grok1 的开源 repo:GitHub - xai-org/grok-1: Grok open release 主页没有任何的 benchmark 介绍,实际需要下载测试。 真正的效果,只有等土豪玩家和大厂们的测评完才知道。

英伟达网红研究员Jim Fan的期待——希望看到基于Grok1长出的新应用,估计也要等待一段时间。