星火认知大模型“智慧涌现“，综合性评测成国内第一|人工智能技术|大模型|星火认知|算法|综合性评测|讯飞

当下的认知智能大模型领域极为火热，国外和国内都诞生了很多个认知大模型，但是作为新兴事物，普通网友对它们还是没有一个全面、客观的了解，不知道目前的AI能达到什么程度，各大模型互相之间有何优劣？为解决这些问题，中文通用大模型综合性评测基准 SuperCLUE发布了。

SuperCLUE三大能力测试基准

SuperCLUE测试基准主要是针对中文可用的通用大模型的一个评测基准，它主要解决的问题是在当下通用大模型高速发展的中，中文大模型的效果情况，包括各大模型不同任务的效果情况、和国际上代表性模型的比较情况以及和人类对比的效果等。从能力考察角度来看，SuperCLUE测试基准主要考察了中文通用大模型的基础能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等 10 项常见的有代表性的模型能力；专业能力，如中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等 50 多项能力；中文特性能力，如中文成语、诗歌、文学、字形等 10 项针对有中文特点的任务能力。

国内和国际有差距可追赶

同时，SuperCLUE测试基准也发布了首个测试榜单，榜单之中选取了包括国外的GPT4、GPT3.5-turbo、Vicuna-13B，国内的讯飞星火认知大模型、MiniMax和文心一言等九大模型与人类进行了多维度的对比测试。结果显示，国际上先进的GPT具备较大的领先，GPT4位列第一、GPT3.5-turbo位列第二，国内的GPT虽然也有不错表现，讯飞星火认知大模型位列第三，说明了有差距但可追赶。

智慧涌现-算法、数据和算力有优势

在小编看来，大模型背后的核心技术是认知智能，科大讯飞作为人工智能国家队之一，多年来一直深耕认知智能领域，有能力推出自主研发的国产大模型。从科大讯飞的发展历程来看，其在2014年就提出讯飞超脑计划，目标就是让机器能理解会思考，在2022年进一步提出讯飞超脑2030计划，进一步深耕认知智能。并且承办国家语言及语言国家重点实验室、认知智能国家重点实验室以及国家新一代人工智能开发创新平台，可谓是AI国家队的代表。仅过去一年在认知智能领域就有10+项世界冠军，其实力不容小觑。

大模型的核心是算法、数据和算力。算法和数据是科大讯飞的强项，在算力维度上，科大讯飞也联合华为，打造自主可控的算力平台，可以说是国内最有希望实现“智慧涌现”的玩家之一。

星火大模型在表现出“智慧”的同时，也有一些质疑的声音存在。但是真正使用过国内的相同类型产品后，就能发现其在文本生成、语言理解以及数学能力上表现都还不错，国产大模型领先者名副其实。当然，我们也要正视差距，星火大模型才刚刚发布，现在谈对标ChatGPT也为时过早。科大讯飞能够做到发布前就开放体验，发布会上就现场实测，且落地产品级的行业应用，勇气和实力值得嘉奖。