好用的AI分享
11
通义千问,低调的强者
好用的AI分享系列主要为大家介绍大语言模型:如ChatGPT/文心一言等一系列生成式人工智能相关知识,帮助大家深入了解AI目前的最新进展与强大能力,真正做到让AI提效。 欢迎大家订阅本公众号,持续进行学习。
通义千问大模型是由阿里云智能研发的模型。它的名字"千问"源自中国成语,意为对世间万物怀有好奇之心,饱含对知识的渴求。
通义千问在2023年4月首次对外发布,2023年10月31日,阿里云正式更新为千亿级参数大模型通义千问2.0。在10个权威测评中,通义千问2.0综合性能超过GPT-3.5,正在加速追赶GPT-4。
此外,通义千问APP在各大手机应用市场正式上线,所有人都可通过APP直接体验最新模型能力。
通义千问2.0在性能上取得巨大飞跃,相比2023年4月发布的1.0版本,通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升,综合性能已经超过GPT-3.5,加速追赶GPT-4,在目前GPT-4变笨的情况下,通义千问是非常好的选择。
根据上图,在MMLU、C-Eval、GSM8K、HumanEval、MATH等10个主流Benchmark测评集上,通义千问2.0的得分整体超越Meta的Llama-2-70B,相比OpenAI的Chat-3.5是九胜一负,相比GPT-4则是四胜六负,与GPT-4的差距进一步缩小。
中英文理解能力是大语言模型的基本功。英语任务方面,通义千问2.0在MMLU基准的得分是82.5,仅次于GPT-4,能更好地理解和处理复杂的语言结构和概念;
中文任务方面,通义千问2.0模型在训练中学习了更多中文语料,进一步强化了中文理解和表达能力。我们依然以经典例子“领导夹菜你转桌,领导喝水你刹车”让通义千问写几句类似的,我们可以看到它完成得非常好:
而在数学推理、代码理解等领域,通义千问2.0也进步明显。在推理基准测试GSM8K中,通义千问排名第二,展示了强大的计算和逻辑推理能力;
首先给通义千问一个简单点的画股票走势图的Python代码,有点小瑕疵,完成得不错:
但是更进一步的复杂编程,国产大模型的效果都比较一般。众所周知GPT-4的代码一次执行准确率80%以上,我们让通义千问和GPT-4做同一个任务:爬取豆瓣top250的电影,仅有GPT-4的代码能爬取出来:
GPT-4给的代码成功运行↑
通义千问给的代码出错↑
总而言之,作为少数的千亿级别大模型,通义千问已经很强,能让我们感受到国内大厂的态度和实力,追赶GPT-4志在必得,加油~
关注点宽学园
每周持续更新AI系列课程
小U带你进入人工智能世界
我们下节课见啦
即日起,本公众号将持续更新【好用的AI分享】系列文章。最新AIGC系列文章、资讯、及直播课程大家可关注小红书账号【AI丽塔】。
即日起每周持续更新,扫码了解更多
AI直播/资讯更新
小红书账号
AIGC相关课程咨询
点宽小助手
扫码回复“AIGC”咨询课程
热门跟贴