美国科技巨头Meta推出了Llama 3,号称「有史以来最强大的开源大模型」,外部开发者可直接免费使用。

在外界看来,Meta现在推出Llama 3,是为了追赶行业领导者OpenAI。但Meta首席执行官扎克伯格向外媒表示,“我们的目标不是与开源模型竞争,而是要超过所有人,打造最领先的人工智能。”

Meta发布开源大模型Llama 3

Llama3,这个被全球开发者翘首以待的大模型,终于在万众期待中揭开了神秘的面纱。它不仅在性能上全面超越了前代,更在开源精神上展现了Meta的风范。8B和70B两个版本的模型,都以几乎免费的方式向世界开放,这是怎样的一种慷慨?
跑分成绩更是让人瞠目结舌。在MMLU、GPQA、HumanEval等五个评测集上,Llama3的表现简直是碾压级别的。8B模型在同尺寸模型中一骑绝尘,而70B模型更是与业界顶尖的非开源模型一较高下,这实力,不服不行。

但Llama3的野心远不止于此。他们还推出了一个全新的高质量评估集,涵盖12个关键用例,从编码到创意写作,从推理到总结,Llama3的表现都令人印象深刻。

当然,Llama3也有它的局限性,比如知识库时间的限制和上下文长度的不足。但这并不妨碍它成为目前最强的开源模型。Meta用实力证明了,谁才是AI界的“OpenAI”。

最后,值得一提的是,Llama3的中文处理能力还有待提升,但我相信,有了广大开发者的共同努力,Llama3的中文能力必将迎头赶上。

最强开源模型怎样炼成

Llama 3优越的性能,离不开Meta在训练数据上的投入。据透露,Llama 3训练数据规模高达15 万亿token,几乎是Llama 2的七倍。

不仅如此,为了满足多语种的需求,Llama 3超过 5%的预训练数据集,由涵盖 30 多种语言的高质量非英语数据组成。

为了确保 Llama 3 接受最高质量数据的训练,Meta还开发、使用了启发式过滤器、NSFW 过滤器、语义重复数据删除方法和文本分类器来保证数据质量。

相比数据规模,数据来源更加令人关注。毕竟,此前Meta因训练数据不足而产生焦虑,甚至一度爆出消息,在最近的一次高层管理会议中,Meta高管甚至还建议收购出版社 Simon & Schuster以采购包括史蒂芬金等知名作家作品在内的长篇小说为其AI模型提供训练数据。

在此次发布Llama 3中,对于数据来源,Meta只说了“收集于公开来源”。不过根据外媒的说法,Llama 3使用的训练数据,有很大一部分是AI合成的数据。有趣的是,两个版本的数据库日期还略微有点不同,8B版本截止日期为2023年3月,70B版本为2023年12月。

除了提高数据规模和质量外,Meta花了很多精力在优化训练效率上,比如数据并行化、模型并行化和管道并行化。当16000个GPU集群上进行训练时,Meta最高可实现每个GPU超过 400 TFLOPS的计算利用率。

同时,为了延长 GPU 的正常运行时间,Meta开发了一种先进的新训练堆栈,可以自动执行错误检测、处理和维护。

此外,Meta还极大地改进了硬件可靠性和静默数据损坏检测机制,并且开发了新的可扩展存储系统,以减少检查点和回滚的开销。这些改进使总体有效培训时间超过 95%。综合起来,这些改进使Llama 3的训练效率比Llama 2提高了约三倍。

免责声明:

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。

2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。