作者|子川

来源|AI 先锋官

见过卷的,没见过这么卷的!

时隔不到1个月, 阿里又双叒叕开源啦!!

一口气开源了14个模型!!!

  • Qwen2.5: 0.5B、1.5B、3B、7B、14B、32B 和 72B

  • Qwen2.5-Coder:1.5B、7B 和 32B(即将发布)

  • Qwen2.5-Math:1.5B、7B 和 72B。

  • Qwen2-VL:72B。

打开网易新闻 查看精彩图片

除了3B和72B的版本外,所有的开源模型都采用了 Apache 2.0 许可证。

下面让我们看一下相较于Qwen2系列,Qwen2.5带来了哪些升级!

先说总结:吊爆了!!!

更大规模、更高质量的预数据训练集:Qwen2.5的预训练数据集规模从7T tokens 扩展到了18Ttokens。(“ T ”表示“万亿”, 18T 即 18 万亿)

知识量升级:Qwen2.5的知识涵盖更广。在MMLU基准中,Qwen2.5-7B 和 72B的得分相较于Qwen2分别从70.3提升到74.2,和从84.2提升到86.1

此外,Qwen2.5还在 GPQA、MMLU-Pro、MMLU-redux 和 ARC-C 等多个基准测试中有了明显提升。

代码能力增强:由于Qwen2.5-Coder的突破,Qwen2.5在代码生成能力上也大幅提升。

Qwen2.5-72B在LiveCodeBench(2305-2409)、MultiPL-E和MBPP中的分别得分55.5、75.188.2,优于Qwen2-72B-Instruct的32.2、69.2和80.2。

数学能力提升:在MATH基准测试中,Qwen2.5-7B和Qwen2.5-72B在数学推理得分上。分别从Qwen2-7B和Qwen2-72B的52.9和69.0上升到了75.5和83.1

更符合人类偏好:Qwen2.5生成的内容更加贴近人类的偏好。

具体来看,Qwen2.5-72B-Instruct的Arena-Hard得分从48.1大幅提升至81.2,MT-Bench得分也从9.12提升到了9.35。

其他核心能力提升:Qwen2.5在 指令跟随、生成长文本(从1K升级到 8K tokens)。

此次阿里可不是简简单单的发布一些充数的模型,而是实打实全方位升级!!!

本次阿里开源的最大版本指令微调模型Qwen2.5-72B在多个全球知名基准测试平台的测试结果显示:

仅有720亿参数的Qwen2.5击败了Meta拥有4050亿参数的最新开源Llama-3.1指令微调模型;成为目前最强大参数的开源模型之一。

打开网易新闻 查看精彩图片

即便是没有进行指令微调的基础语言模型,其性能同样赶超Llama-3-405B。

打开网易新闻 查看精彩图片

此外,阿里开放API的模型Qwen-Plus 与 GPT4-o、Claude-3.5-Sonnet、Llama-3.1-405B 和 DeepSeek-V2.5等模型相比较,也丝毫不落下风。显著优于 DeepSeek-V2.5。

但是在某些方面仍不及 GPT4-o 和 Claude-3.5-Sonnet, Llama-3.1-405B。

打开网易新闻 查看精彩图片

Qwen2.5 还开放了 140 亿参数和 320 亿参数模型,即Qwen2.5-14BQwen2.5-32B

这两个模型在多样化的任务中超越了 Phi-3.5-MoE-Instruct 和 Gemma2-27B等同等规模的基线模型。

打开网易新闻 查看精彩图片

值得注意的是,即便是只有30亿参数的小模型,Qwen2.5-3B也表现了出惊人的能量,在MMLU基准中得分超过65。优于Llama-2-70B等大模型。

打开网易新闻 查看精彩图片

此次除了Qwen2.5系列模型表现优异之外。

Qwen2.5-Coder和Qwen2.5-Math系列模型表现同样令人震撼。

一个月前,阿里开源了 Qwen 家族的第一款数学专项大语言模型Qwen2-Math。

如今再度升级并开源 Qwen2.5-Math 系列。

相较于 Qwen2-Math 只支持使用思维链(CoT)解答英文数学题目,Qwen2.5 系列能同时支持使用思维链(CoT)和工具集成推理(TIR) 解决中英双语的数学题。

其中Qwen2.5-Math-72B的整体性能超越了Qwen2-Math-72B指令微调和著名闭源模型GPT4o。

打开网易新闻 查看精彩图片

即使是非常小的 Qwen2.5-Math-1.5B模型 也拿到了不错的成绩。

今年四月份阿里发布了 CodeQwen1.5(代码模型)。

反响特别好!

如今又开源Qwen2.5-Code系列模型。

Qwen2.5-Coder 在 128K tokens 上下文,支持 92 种编程语言。

并在多个代码相关的评估任务中都取得了显著的提升,包括代码生成、多编程语言代码生成、代码补全、代码修复等。

值得注意的是,本次开源的 7B 版本 Qwen2.5-Coder,打败了更大尺寸的 DeepSeek-Coder-V2-Lite 和 Codestral-20B,成为当前最强大的基础代码模型之一。

打开网易新闻 查看精彩图片

为了更广泛的评估多编程语言能力,阿里还使用 McEval 在 Qwen2.5-Coder 上进行了更多的测试,设计 40 多种编程语言。

结果表明:Qwen2.5-Coder在多种编程语言任务上表现依旧十分出色。

打开网易新闻 查看精彩图片

大家伙别忘了在多模态的赛道上,阿里也一直秉持着开源的初心。

这不,还开源了Qwen2-VL-72B模型。

打开网易新闻 查看精彩图片

Qwen2-VL-72B模型的图像理解能力能解读能够处理各种分辨率和长宽比的图片,还能够有效理解长达20分钟的视频。并支持多语言。

该模型在视觉理解方面的性能足以和GPT-4o相媲美。

此次阿里的开源简直用丧心病狂来形容一点都不为过。

有人形容阿里是中国版的Mate。

我更愿称阿里是开源路上的领跑者,是先锋!

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾