当下的认知智能大模型领域极为火热,国外和国内都诞生了很多个认知大模型,但是作为新兴事物,普通网友对它们还是没有一个全面、客观的了解,不知道目前的AI能达到什么程度,各大模型互相之间有何优劣?为解决这些问题,中文通用大模型综合性评测基准 SuperCLUE发布了。

打开网易新闻 查看精彩图片

SuperCLUE三大能力测试基准

SuperCLUE测试基准主要是针对中文可用的通用大模型的一个评测基准,它主要解决的问题是在当下通用大模型高速发展的中,中文大模型的效果情况,包括各大模型不同任务的效果情况、和国际上代表性模型的比较情况以及和人类对比的效果等。从能力考察角度来看,SuperCLUE测试基准主要考察了中文通用大模型的基础能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项常见的有代表性的模型能力;专业能力,如中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等 50 多项能力;中文特性能力,如中文成语、诗歌、文学、字形等 10 项针对有中文特点的任务能力。

打开网易新闻 查看精彩图片

国内和国际有差距可追赶

同时,SuperCLUE测试基准也发布了首个测试榜单,榜单之中选取了包括国外的GPT4、GPT3.5-turbo、Vicuna-13B,国内的讯飞星火认知大模型、MiniMax和文心一言等九大模型与人类进行了多维度的对比测试。结果显示,国际上先进的GPT具备较大的领先,GPT4位列第一、GPT3.5-turbo位列第二,国内的GPT虽然也有不错表现,讯飞星火认知大模型位列第三,说明了有差距但可追赶。

打开网易新闻 查看精彩图片

智慧涌现-算法、数据和算力有优势

在小编看来,大模型背后的核心技术是认知智能,科大讯飞作为人工智能国家队之一,多年来一直深耕认知智能领域,有能力推出自主研发的国产大模型。从科大讯飞的发展历程来看,其在2014年就提出讯飞超脑计划,目标就是让机器能理解会思考,在2022年进一步提出讯飞超脑2030计划,进一步深耕认知智能。并且承办国家语言及语言国家重点实验室、认知智能国家重点实验室以及国家新一代人工智能开发创新平台,可谓是AI国家队的代表。仅过去一年在认知智能领域就有10+项世界冠军,其实力不容小觑。

大模型的核心是算法、数据和算力。算法和数据是科大讯飞的强项,在算力维度上,科大讯飞也联合华为,打造自主可控的算力平台,可以说是国内最有希望实现“智慧涌现”的玩家之一。

打开网易新闻 查看精彩图片

星火大模型在表现出“智慧”的同时,也有一些质疑的声音存在。但是真正使用过国内的相同类型产品后,就能发现其在文本生成、语言理解以及数学能力上表现都还不错,国产大模型领先者名副其实。当然,我们也要正视差距,星火大模型才刚刚发布,现在谈对标ChatGPT也为时过早。科大讯飞能够做到发布前就开放体验,发布会上就现场实测,且落地产品级的行业应用,勇气和实力值得嘉奖。