开源模型越来越落后？Meta甩出全新Llama 3应战|meta|开源模型|编程|视频生成模型|预训练

作者｜苏霍伊

编辑｜王博

如同闷了很久，突然下的一场雨——Llama 3终于来了。

美国当地时间4月18日，Meta公司推出其开源大语言模型“Llama”（直译是“羊驼”）系列的最新产品——Llama 3。更准确地说，是发布了Llama 3系列的两个版本：包含80亿参数的Llama 3 8B和包含700亿参数的Llama 3 70B。

Meta表示，Llama 3在性能上实现了重大跃迁。并称它为“迄今为止最强的开源大模型”。就其参数量而言，Llama 3 8B和Llama 3 70B是目前市场上表现最佳的生成式AI模型之一，这两款模型都是在两个专门构建的含24000个英伟达GPU的集群上训练的，在15万亿个Token上预训练的。

除此之外，Meta透露，他们目前正在开发一款超过4000亿参数的Llama 3模型。这款模型不仅能用多种语言进行对话，还能处理更多数据，理解图像及其他非文本模式，力求使Llama 3系列与Hugging Face的Idefics2等开源模型保持同步。

消息一出便引起热议，埃隆·马斯克（Elon Musk）在杨立昆（Yann LeCun）的X下面评论：“还不错（Not bad）。”

英伟达高级研究经理、具身智能负责人Jim Fan认为即将推出的Llama 3-400B+模型将是社区获得GPT-4级别模型的重要里程碑。

“这将为许多研究项目和初创企业带来新的发展机遇。Llama-3-400B目前还在训练中，希望在接下来的几个月能有所提升。这样强大的模型将开启大量研究的可能性。期待整个生态系统中创新活力的大爆发！”Jim Fan在X写到。

Meta在一篇博客文章中表示：“我们的近期目标是让Llama 3支持多语种和多模态输入，拓宽处理的上下文范围，并继续在核心功能如推理和编程方面提升性能。未来我们还将推出更多功能。”

同时，Llama 3将在亚马逊、微软、谷歌云等云平台得到启用，并得到英伟达等芯片巨头和戴尔的硬件支持。并基于Llama 3升级了人工智能助手Meta AI，Meta将其称为“免费使用的最智能AI助手”。

Llama 3的主要亮点有：

使用超过15万亿token进行训练，是Llama 2数据集规模的7倍以上；
在至少9个基准测试中展现出领先的性能；
数学能力优秀， Llama 3在推理、代码生成和指令遵循等方面取得了显著进步；
Llama 3的错误拒绝率大幅降低；
配备了Llama Guard 2、Code Shield等新一代的安全工具。

1.超4000亿参数规模，超15万亿的训练token

Llama 3 在9项标准测试基准上都有着更好的表现，如都在70亿参数级的Mistral 7B模型和Google Gemma 7B模型等。

这9个基准测试包括MMLU（测试知识水平）、ARC（测试技能获取）、DROP（测试对文本块的推理能力）、GPQA（涉及生物、物理和化学的问题）、HumanEval（代码生成测试）、GSM-8K（数学应用问题）、MATH（数学基准）、AGIEval（问题解决测试集）和BIG-Bench Hard（常识推理评估）。

Llama 3 70B在MMLU、HumanEval和GSM-8K上战胜了Gemini 1.5 Pro，虽然它可能无法与Anthropic的最高性能模型Claude 3 Opus相比，但在五个基准测试（MMLU、GPQA、HumanEval、GSM-8K和MATH）上表现优于Claude 3系列中的Claude 3 Sonnet。

值得一提的是，Meta还开发了自己的测试集，涵盖了从编程和创意写作到推理和摘要的各种用例。Meta 表示，他们构建了一个新的、高质量的人类评估集，包括涵盖 12 个关键场景的 1800 个提示词。这些场景包括寻求建议、头脑风暴、分类、闭卷问答、开卷问答、编程、创意写作、信息提取、塑造角色形象、推理、改写和总结。在这个评估集中的测试显示，70B 版本的 Llama 3 在指令调优后，在对比 Claude Sonnet、Mistral Medium、GPT-3.5 和 Llama 2 的比赛中，其胜率分别达到了 52.9%、59.3%、63.2%、63.7%。

Meta表示，Llama 3有着更高的“可控性”，基本不会拒绝回答问题。同时在涉及历史和STEM领域（如工程和科学）的题目以及一般编程建议上更高的准确性。这要得益于一个包含15万亿token的集合（约7500亿个单词），它是Llama 2训练集的7倍。

那么，数据来自哪里？

Meta透露，这些数据来自“公开可获得的资源”，并包含了比Llama 2训练数据集中多4倍的代码量，且为了满足未来多语言的需求，Llama 3的预训练数据集中包含超过5%的高质量非英语数据，涵盖了30多种语言。Meta 预计，非英语语种的性能可能与英语有所差异。

Meta还使用了AI合成数据创建用于Llama 3模型训练的更长文档，虽然这种方法由于潜在的性能缺陷而备受争议。

“虽然我们今天发布的模型只针对英语输出进行了微调，但数据的增多帮助模型更好地识别差异和模式。”Meta在博客中写道。

许多生成式AI供应商将训练数据视为竞争优势，因此常常保密相关信息。此外，训练数据细节可能触发知识产权相关的诉讼，这也是他们不愿透露太多的一个原因。最近的报道称，Meta为了在AI领域保持竞争力，一度使用受版权保护的电子书进行训练。

目前Meta和OpenAI因涉嫌未经授权使用版权数据进行训练，正面临包括喜剧演员Sarah Silverman在内的作者提起的法律诉讼。

Meta近期计划推出Llama 3的新功能，包括更长的上下文窗口和更强大的性能，并将推出新的模型尺寸版本和公开Llama 3的研究论文。

2.Llama 3 要素拆解

Meta一直强调创新、扩展和优化的重要性。因此在开发 Llama 3 时，Meta 遵循了这一设计哲学，专注于四个核心要素：

模型架构：Llama 3使用了标准的纯解码器Transformer架构，并在 Llama 2的基础上进行了改进。它引入了一个128K token的tokenizer，大幅提升了语言编码效率。Meta 在开发中还加入了分组查询关注（Grouped Query Attention, GQA），以提高模型在处理 8B 至 70B 大小模型的推理效率。训练时，模型处理高达 8192 token 的序列，且设计了掩码机制以防止注意力机制跨越文档边界。

数据工程：Meta构建了一个大型且高质量的训练数据集，规模是Llama 2的七倍，代码量是四倍。Llama 3的训练涵盖了超过15T的 token，包括超过5%的高质量非英语数据，支持30多种语言。Meta采用了启发式过滤器、NSFW过滤器、语义重复数据删除以及文本分类器等方法来确保数据质量，并进行了大量实验以评估混合不同来源数据的最佳方法。

扩大预训练规模：Meta制定了详细的Scaling Law来最大化预训练数据的利用，这有助于优化模型性能，尤其是在如代码生成等关键任务上。在实际训练过程中，Llama 3的性能通过在达到15T token的训练量后还在对数线性增长，表现出其持续的学习能力。为了训练大规模模型，Meta结合了数据并行化、模型并行化和管道并行化技术，并在16K GPU上实现了高达400 TFLOPS的计算利用率。