阿里又双叒叕开源啦，14 款模型，效果劲爆！

AI先锋官

2024-09-20 00:00 ·北京

作者｜子川

来源｜AI 先锋官

见过卷的，没见过这么卷的！

时隔不到1个月，阿里又双叒叕开源啦！！

一口气开源了14个模型！！！

Qwen2.5: 0.5B、1.5B、3B、7B、14B、32B 和 72B
Qwen2.5-Coder：1.5B、7B 和 32B（即将发布）
Qwen2.5-Math：1.5B、7B 和 72B。
Qwen2-VL：72B。

除了3B和72B的版本外，所有的开源模型都采用了 Apache 2.0 许可证。

下面让我们看一下相较于Qwen2系列，Qwen2.5带来了哪些升级！

先说总结：吊爆了！！！

更大规模、更高质量的预数据训练集：Qwen2.5的预训练数据集规模从7T tokens 扩展到了18Ttokens。（“ T ”表示“万亿”， 18T 即 18 万亿）

知识量升级：Qwen2.5的知识涵盖更广。在MMLU基准中，Qwen2.5-7B 和 72B的得分相较于Qwen2分别从70.3提升到74.2，和从84.2提升到86.1。

此外，Qwen2.5还在 GPQA、MMLU-Pro、MMLU-redux 和 ARC-C 等多个基准测试中有了明显提升。

代码能力增强：由于Qwen2.5-Coder的突破，Qwen2.5在代码生成能力上也大幅提升。

Qwen2.5-72B在LiveCodeBench（2305-2409）、MultiPL-E和MBPP中的分别得分55.5、75.1和88.2，优于Qwen2-72B-Instruct的32.2、69.2和80.2。

数学能力提升：在MATH基准测试中，Qwen2.5-7B和Qwen2.5-72B在数学推理得分上。分别从Qwen2-7B和Qwen2-72B的52.9和69.0上升到了75.5和83.1。

更符合人类偏好：Qwen2.5生成的内容更加贴近人类的偏好。

具体来看，Qwen2.5-72B-Instruct的Arena-Hard得分从48.1大幅提升至81.2，MT-Bench得分也从9.12提升到了9.35。

其他核心能力提升：Qwen2.5在指令跟随、生成长文本（从1K升级到 8K tokens）。

此次阿里可不是简简单单的发布一些充数的模型，而是实打实全方位升级！！！

本次阿里开源的最大版本指令微调模型Qwen2.5-72B在多个全球知名基准测试平台的测试结果显示：

仅有720亿参数的Qwen2.5击败了Meta拥有4050亿参数的最新开源Llama-3.1指令微调模型；成为目前最强大参数的开源模型之一。

即便是没有进行指令微调的基础语言模型，其性能同样赶超Llama-3-405B。

此外，阿里开放API的模型Qwen-Plus 与 GPT4-o、Claude-3.5-Sonnet、Llama-3.1-405B 和 DeepSeek-V2.5等模型相比较，也丝毫不落下风。显著优于 DeepSeek-V2.5。

但是在某些方面仍不及 GPT4-o 和 Claude-3.5-Sonnet， Llama-3.1-405B。

Qwen2.5 还开放了 140 亿参数和 320 亿参数模型，即Qwen2.5-14B和Qwen2.5-32B。

这两个模型在多样化的任务中超越了 Phi-3.5-MoE-Instruct 和 Gemma2-27B等同等规模的基线模型。

值得注意的是，即便是只有30亿参数的小模型，Qwen2.5-3B也表现了出惊人的能量，在MMLU基准中得分超过65。优于Llama-2-70B等大模型。

此次除了Qwen2.5系列模型表现优异之外。

Qwen2.5-Coder和Qwen2.5-Math系列模型表现同样令人震撼。

一个月前，阿里开源了 Qwen 家族的第一款数学专项大语言模型Qwen2-Math。

如今再度升级并开源 Qwen2.5-Math 系列。

相较于 Qwen2-Math 只支持使用思维链（CoT）解答英文数学题目，Qwen2.5 系列能同时支持使用思维链（CoT）和工具集成推理（TIR）解决中英双语的数学题。

其中Qwen2.5-Math-72B的整体性能超越了Qwen2-Math-72B指令微调和著名闭源模型GPT4o。

即使是非常小的 Qwen2.5-Math-1.5B模型也拿到了不错的成绩。

今年四月份阿里发布了 CodeQwen1.5（代码模型）。

反响特别好！

如今又开源Qwen2.5-Code系列模型。

Qwen2.5-Coder 在 128K tokens 上下文，支持 92 种编程语言。

并在多个代码相关的评估任务中都取得了显著的提升，包括代码生成、多编程语言代码生成、代码补全、代码修复等。

值得注意的是，本次开源的 7B 版本 Qwen2.5-Coder，打败了更大尺寸的 DeepSeek-Coder-V2-Lite 和 Codestral-20B，成为当前最强大的基础代码模型之一。

为了更广泛的评估多编程语言能力，阿里还使用 McEval 在 Qwen2.5-Coder 上进行了更多的测试，设计 40 多种编程语言。

结果表明：Qwen2.5-Coder在多种编程语言任务上表现依旧十分出色。

大家伙别忘了在多模态的赛道上，阿里也一直秉持着开源的初心。

这不，还开源了Qwen2-VL-72B模型。

Qwen2-VL-72B模型的图像理解能力能解读能够处理各种分辨率和长宽比的图片，还能够有效理解长达20分钟的视频。并支持多语言。

该模型在视觉理解方面的性能足以和GPT-4o相媲美。

此次阿里的开源简直用丧心病狂来形容一点都不为过。

有人形容阿里是中国版的Mate。

我更愿称阿里是开源路上的领跑者，是先锋！

扫码邀请进群，我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴