【好用的AI分享】丨第十一讲：通义千问，低调的强者

点宽DigQuant

2024-06-12 18:16 ·广东

好用的AI分享

11

通义千问，低调的强者

好用的AI分享系列主要为大家介绍大语言模型：如ChatGPT/文心一言等一系列生成式人工智能相关知识，帮助大家深入了解AI目前的最新进展与强大能力，真正做到让AI提效。欢迎大家订阅本公众号，持续进行学习。

通义千问大模型是由阿里云智能研发的模型。它的名字"千问"源自中国成语，意为对世间万物怀有好奇之心，饱含对知识的渴求。

通义千问在2023年4月首次对外发布，2023年10月31日，阿里云正式更新为千亿级参数大模型通义千问2.0。在10个权威测评中，通义千问2.0综合性能超过GPT-3.5，正在加速追赶GPT-4。

此外，通义千问APP在各大手机应用市场正式上线，所有人都可通过APP直接体验最新模型能力。

通义千问2.0在性能上取得巨大飞跃，相比2023年4月发布的1.0版本，通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升，综合性能已经超过GPT-3.5，加速追赶GPT-4，在目前GPT-4变笨的情况下，通义千问是非常好的选择。

根据上图，在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上，通义千问2.0的得分整体超越Meta的Llama-2-70B，相比OpenAI的Chat-3.5是九胜一负，相比GPT-4则是四胜六负，与GPT-4的差距进一步缩小。

中英文理解能力是大语言模型的基本功。英语任务方面，通义千问2.0在MMLU基准的得分是82.5，仅次于GPT-4，能更好地理解和处理复杂的语言结构和概念；

中文任务方面，通义千问2.0模型在训练中学习了更多中文语料，进一步强化了中文理解和表达能力。我们依然以经典例子“领导夹菜你转桌，领导喝水你刹车”让通义千问写几句类似的，我们可以看到它完成得非常好：

而在数学推理、代码理解等领域，通义千问2.0也进步明显。在推理基准测试GSM8K中，通义千问排名第二，展示了强大的计算和逻辑推理能力；

首先给通义千问一个简单点的画股票走势图的Python代码，有点小瑕疵，完成得不错：

但是更进一步的复杂编程，国产大模型的效果都比较一般。众所周知GPT-4的代码一次执行准确率80%以上，我们让通义千问和GPT-4做同一个任务：爬取豆瓣top250的电影，仅有GPT-4的代码能爬取出来：

GPT-4给的代码成功运行↑

通义千问给的代码出错↑

总而言之，作为少数的千亿级别大模型，通义千问已经很强，能让我们感受到国内大厂的态度和实力，追赶GPT-4志在必得，加油~

关注点宽学园

每周持续更新AI系列课程

小U带你进入人工智能世界

我们下节课见啦

即日起，本公众号将持续更新【好用的AI分享】系列文章。最新AIGC系列文章、资讯、及直播课程大家可关注小红书账号【AI丽塔】。

即日起每周持续更新，扫码了解更多

AI直播/资讯更新

小红书账号

AIGC相关课程咨询

点宽小助手

扫码回复“AIGC”咨询课程

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴