本文为1023,建议阅读2分钟


马斯克兑现本周开源自有大模型gork承诺,具体信息如下:

Grok是一个由马斯克的人工智能公司 xAI 从头开始训练的 3140 亿参数混合专家模型,Grok 是一款模仿《银河系漫游指南》的人工智能,本次开源公开了grok的模型权重和网络架构,共 318.24GB ,这个尺寸肯定没法在本地玩了

下载地址 :

https://academictorrents.com/details/5f96d43576e3d386c9ba65b883210a393b68210e

为了 Understand the Universe 理念,看来团队特意把参数设定成了圆周率 314B,这是目前规模最大的开源模型,期待今年六月的 Llama 3 加入 Grok 的开源争霸战

这个版本包含了Grok-1在2023年10月完成预训练阶段时的基础模型数据。这意味着模型尚未经过针对特定应用(如对话系统)的微调

Grok 权重通过磁力链接在 Apache 2.0 下发布:https://github.com/xai-org/grok 与其他通常有使用限制的开放权重模型相比,Grok 更为开源。 与 Pythia、Bloom 和 OLMo 相比,Grok 的开源程度较低,因为这些模型都有训练代码和可重现的数据集

模型详细信息 :

●3140亿参数构成的混合专家模型,其中25%的参数能够针对特定的数据单元(Token)激活

●xAI团队利用定制的训练技术栈,在JAX和Rust的基础上,从零开始构建了此模型,完成时间为2023年10月

●模型参数数量高达3140亿

●混合专家模型(Mixture of Experts, MoE)

●每一个数据单元(Token)由2位专家处理

●共64个处理层

●用于处理查询的有48个注意力机制单元(attention heads)

●用于处理键(key)/值(value)的有8个注意力机制单元

●嵌入向量(embeddings)的维度为6,144

●采用旋转式嵌入表示(Rotary Position Embeddings, RoPE)

●使用SentencePiece分词系统处理,包含131,072种数据单元

●支持激活数据分布计算(activation sharding)和8位数字精度量化(8-bit quantization)

●最大序列长度为8,192个数据单元,以处理更长的上下文信息

有网友恶搞扎克伯格,用AI制作了一个扎克伯格辣评马斯克的grok的开源小视频:‍‍‍‍‍‍‍‍‍‍‍‍‍

扎克伯格辣评:‍‍‍

老子有钱” 面对 elon 刚刚发布的grok 人工智能开源计划, 扎克刚刚对Grok的发布做出了反应。他并不是很印象深刻。有人对gork开源有很高期待只因为他是马斯克的,结果elon只开源了模型权重(假开源,模型训练数据,训练方法等等还是闭源的),事实上我们的Llama 2是更好的开源模型, 3140亿个参数太多了。你需要有一堆H100,而我已经把它们全部买了,回头再见了您!!!

结语

真正的大模型开源应该是:

公开权重、发布训练和推理代码、公开训练数据、评估、适应性和日志

目前grok只开源了权重‍‍

不过马斯克明显站队开源人工智能了,期待后续动作,另外国产大模型又多了一个开源参考了

blog:https://x.ai/blog/grok-os

github:https://github.com/xai-org/grok-1