随着 “你好,Qwen2” 的发出,一夜之间,全球最强开源模型再次易主。备受关注的Qwen2-72B一经发布,便迅速登顶开源LLM排行榜,美国的Llama3-70B瞬间被超越,失去了第一的位置!
这个模型一经发布,立即登顶开源LLM排行榜第一。根据Open LLM Leaderboard。第二名同样来自阿里——Qwen1.5-110B,在多项基准测试中,Qwen2-72B一举斩获了十余项世界冠军,尤其在代码和数学能力方面表现尤为突出。
此外,开源的Qwen2-72B还击败了国内众多闭源大模型,包括文心4.0、豆包Pro、混元Pro等。所有人均可在魔搭社区和 Hugging Face 免费下载通义千问最新开源模型。

Qwen 2.0 主要内容如下:

  • 5个尺寸的预训练和指令微调模型, 包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B;

  • 在中文英语的基础上,训练数据中增加了27种语言相关的高质量数据;

  • 多个评测基准上的领先表现;

  • 代码数学能力显著提升;

  • 增大了上下文长度支持,最高达到128K tokens(Qwen2-72B-Instruct)。

所有预训练模型均在32K tokens的数据上进行训练,且在128K tokens时仍能在PPL评测中表现良好。对于指令微调模型,除了PPL评测,还需进行长序列理解实验。表中列出了根据长序列理解实验结果,各指令微调模型支持的最大上下文长度。使用YARN方法时,Qwen2-7B-Instruct和Qwen2-72B-Instruct均支持长达128K tokens的上下文长度。

Qwen2-72B在包括自然语言理解、知识、代码、数学及多语言等多项能力上均显著超越当前领先的模型。

全面评估了Qwen2-72B-Instruct在16个基准测试中的表现。Qwen2-72B-Instruct在提升基础能力以及对齐人类价值观这两方面取得了较好的平衡。相比Qwen1.5的72B模型,Qwen2-72B-Instruct在所有评测中均大幅超越,并且了取得了匹敌Llama-3-70B-Instruct的表现。

而在小模型方面,Qwen2系列模型基本能够超越同等规模的最优开源模型甚至更大规模的模型。相比近期推出的最好的模型,Qwen2-7B-Instruct依然能在多个评测上取得显著的优势,尤其是代码及中文理解上。

在代码方面,成功将CodeQwen1.5的经验融入Qwen2的研发,显著提升了其在多种编程语言上的效果。而在数学方面,大规模且高质量的数据使Qwen2-72B-Instruct的数学解题能力大幅提升。

此外,Qwen2系列中的其他模型的表现也十分突出:Qwen2-7B-Instruct几乎完美地处理长达128k的上下文;Qwen2-57B-A14B-Instruct则能处理64k的上下文长度;而该系列中的两个较小模型则支持32k的上下文长度。

下表展示了大型模型在四种多语言不安全查询类别(非法活动、欺诈、色情、隐私暴力)中生成有害响应的比例。测试数据来自Jailbreak,并被翻译成多种语言进行评估。由于Llama-3在处理多语言提示方面表现不佳,未将其纳入比较。显著性检验(P值)结果显示,Qwen2-72B-Instruct模型在安全性方面与GPT-4表现相当,且显著优于Mistral-8x22B模型。

如下分别是 MacOS 和 Windows 系统的部署最新阿里通义千问大模型的教程。

  • 使用 Ollama

  • Docker

  • 在huggingface上体验:https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct

关注我~,带你学习AI,了解AI