年度评测丨2024年中国多模态大模型评测正式启动|多模态|大模型评测|沙利文|算法

关注+星标我们

联系电话｜021-5407-5836

联系邮箱｜PR@frostchina.com

年度评测

沙利文联合头豹研究院正式启动大模型评估测试，现诚挚邀请各企业积极参与，共同探讨中国多模态大模型产业发展现状与竞争态势，助力产业整体向阳发展。

评测背景

2024年，大模型技术迎来全面发展阶段，竞争格局逐步从百花齐放向稳定发展过渡。目前，中国在通用基础大模型领域的竞争者已缩减至20余家，主要由互联网企业、云计算巨头及人工智能创业公司主导。在技术层面，多模态理解与生成能力取得了重要突破，头部大模型普遍具备对图片、文档、音频等多模态的理解能力，并且多模态生成技术也在快速进步。与2023年相比，2024年大模型的生成能力显著提升，尤其是在多模态生成领域的全面增强，极大拓宽了其应用边界。这一进展不仅引发了传统大模型厂商的加码投入，也吸引了跨界垂直领域的图片和视频企业积极加入竞争，推动了市场竞争和技术创新的加速。从应用层面看，大模型的应用已不再局限于对话助手和简单的通用内容创作，逐步渗透至自动驾驶、医疗影像分析、3D角色生成等具有行业深度的商业场景，展现出在多个行业领域的广泛潜力与商业价值。

在此背景下，沙利文及头豹研究院发布2025年中国多模态大模型评测报告。该评测在2024年大语言模型评测的基础上，新增了对多模态理解与生成能力的全面考量，旨在全方位评估大模型在语言能力与多模态能力两个维度的技术实力与应用进展。沙利文将持续跟踪中国大模型的最新动态，为行业提供客观、专业的指导与参考。

评测介绍

本次评测分为两大部分。第一部分为通用语言能力评估，重点考察大模型在逻辑推理、知识储备、长文本处理、道德风险识别及行业应用等多种通用文本场景中的综合表现。第二部分为多模态理解与生成能力评估，主要评测大模型在图像理解和生成任务中的能力，涵盖图像细节与空间关系分析、OCR识别、情感理解等多个细分维度，并考量其在商业创作与艺术创作领域的综合创作能力。

通用语言能力

本次通用语言能力评测围绕五大核心领域展开：数理科学、语言能力、道德风险、行业应用能力以及综合能力。五大领域的题库在今年进行了全面升级与迭代，题目总数达到2150道。评测团队由沙利文和头豹研究院的资深分析师组成，团队成员均具备超过20个月的大语言模型交互经验。评测的具体内容包括：

1、数理科学：

由100%客观题组成，测试模型的知识掌握广度与深度。

数学类：涉及数学理论、公式、定理、计算等内容，评估对数学知识的掌握、应用以及解决数学问题的能力；

常识类：测试与日常生活、基础知识、普遍性事实和事件相关的常识。考察常识储备和对社会现象的理解；

科学类：关注自然科学、物理学、化学、生物学等领域的问题，评估理解科学原理、实验设计及数据分析能力；

逻辑推理类：要求在给定的条件下，运用推理和判断能力，通过分析推导得出正确结论，考察逻辑思维和问题解决能力；

代码类：涉及编程、算法设计和实现，考察解决实际问题的计算机编程能力、数据结构运用与算法优化技巧；

2、语言能力：

由80%主观题和20%客观题组成，结合文本类任务实践经验，测试大模型文本生成的底层基础能力。

类比迁移：能够利用已有的知识和经验，实现知识的迁移和应用；

文本生成：自动生成连贯、高价值且符合特定长度要求的文本；

角色扮演：模拟不同人类社会角色和情境中的文本表现能力；

开放式逻辑推理：在复杂、开放和不确定环境下的逻辑推理和问题解决能力；

意图理解：准确理解用户输入的文本所表达的意图或需求；

3、道德风险：

由60%主观题和40%客观题组成，监测是否生成有偏差或不道德的输出或用于生成虚假信息或有害内容，考量大模型的综合安全性。

风险信息：应对和处理风险方面的能力和表现；

模型鲁棒性：面对输入数据的微小变动或异常情况时的表现；

偏见信息：处理和分析数据时是否存在偏见或歧视的问题；

知识幻觉：面对错误或误导性知识时的表现和处理能力；

4、综合能力：

由50%主观题和50%客观题组成，结合实际任务的完成效果和分析师实践经验进行评判，考量大模型特定类综合性任务执行和完成能力。

AI智能体：考察AI大模型在模拟智能体行为和决策方面的能力和表现；

专业文本：考察AI大模型在处理特定领域或专业领域的文本时的表现和能力；

超长文本：考察AI大模型在处理超长文本输入时的能力和表现；

5、行业能力：

基于大模型赋能千行百业的愿景，本次评测将从知识正确性、观点独立创造性以及实际应用价值性三个维度考量大模型在不同行业的应用能力。结合沙利文与头豹研究院的行业理解和实践优势，对14个大模型高应用价值行业进行能力评测。

多模态理解生成能力

本次多模态理解与生成能力评测聚焦于两大核心领域：图像理解能力与图像生成能力。评测团队由沙利文和头豹研究院的资深分析师组成，旨在深入评估当前中国大语言模型在多模态领域的理解与交互能力，以及其在商业创作与艺术创作中的生成能力。评测的具体内容包括：

1、多模态理解：

由60%客观题和40%主观题组成，测试模型的对于图片细节、风格、位置关系等理解准确度。

文字识别（OCR）：评测模型从图像中提取文本信息的准确性和完整性，考察其在不同字体、大小和背景下的表现；

物体识别：评测模型识别图像中不同物体的准确性，包括物体类别的正确分类和置信度评估；

物体定位：评测模型在图像中准确识别和定位物体的位置与占比，以及判断物体的朝向和空间关系的能力；

细节对比：评测模型在图像中识别和对比物体的细微差异，包括大小、形状、颜色等方面的准确性；

空间关系：评测模型理解并正确识别物体之间相对位置和空间关系的能力，通常通过定量分析物体相对位置的准确性来评价；

图片情感：评测模型从图像中推测情感表达的准确性，特别在人物表情、环境氛围和情感色彩的识别上；

图片风格：评测模型对图像艺术风格或表现形式的识别能力，评估其区分不同视觉风格（如现代艺术、复古风格等）的准确性；

图片理解：图片逻辑评测主要考察大模型对图像中的数学关系、因果关系及结构性逻辑的理解能力，确保图像元素之间的互动和关联符合现实或预期的逻辑规则；

复杂理解：考量模型在多维度、多元素的情境下，如何同时理解并准确呈现多个复杂因素或层次的关系；

2、多模态生成——商业型创作：

评测大模型在图像生成领域中应对商业需求场景的图像创作能力。

指令遵循：评测模型根据输入的描述或指令生成符合要求的图像的能力，确保生成内容与指令一致；

图像质量：生成图像的整体视觉效果，包括清晰度、色彩饱和度、光影对比等；

表达一致性：图像的风格、元素和设计与需求定位及品牌形象的一致性；生成图像传达的情感与商业场景的情感匹配度；

创作风格多样性：大模型能根据不同需求生成多样化风格的能力，满足不同的商业场景要求；

风险与幻觉：大模型在生成过程中避免产生不符合实际的内容，确保图像准确性与合理性，减少不切实际或误导性元素。

3、多模态生成——艺术型创作：

评测大模型在图像生成领域中应对艺术创造类需求场景的图像创作能力。

内容创意：图像在创作过程中展现的独特性、原创性和新颖性，评估模型在生成图像时的创意与原创性；

情绪感染力：图像通过色彩、构图、光影等元素传达的情感深度和观众的情感共鸣；

构图完整性：考察图像的构图是否合理，元素布局是否平衡，是否符合视觉美学和空间感；

细节丰富性：图像中细节的处理程度，包括纹理、光影、物体细节的展现，以及这些细节对整体艺术效果的贡献；

视觉冲击性：图像通过构图、色彩对比、形态等方式给观众带来的强烈视觉冲击力，能够瞬间吸引注意力并留下深刻印象；

评测流程

《2025年中国多模态大模型评测》从研究启动到最终结果呈现分为四个阶段：

1）第一阶段，模型选择：沙利文联合头豹研究院开展了深入的市场调研，结合大模型的实践经验及分析师团队的投票结果，确定了入选语言能力与多模态能力榜单的市场主流模型作为评测对象；

2）第二阶段，答案收集：沙利文联合头豹研究院组建专业评测团队，基于预设题库开展大模型评测数据采集，并将收集的答案提交至评估团队进行深入分析与评估；

3）第三阶段，题目评测：由资深分析师组成的团队对大模型评测结果进行严格审阅与评估。为消除评测过程中可能存在的模型偏见，所有答案均以完全随机的方式呈现，模型名称以代码名称替代，确保评审人员在审阅过程中无法获知具体模型信息。最终，数据分析师对评分结果进行深入的数据分析与处理；

4）第四阶段，结果发布：发布《2025年中国多模态大模型评测》报告结果，并通过官方网站、金融服务平台、公众号等多个媒体渠道，广泛传播报告中的关键发现和深度行业洞察，旨在向公众深入传递对中国大模型能力的全面认知。

大模型通用语言能力评测结果榜单示例：

大模型多模态能力评测结果榜单示例：

评测规则

基于研究内容独立、公正及客观性的原则，沙利文及头豹研究院评测团队以严格的双盲形式进行评估打分，经过严谨公正的评分规则进行结果产出。

研究计划

● 《2025年中国多模态大模型评测》研究启动—2024年12月

● 确认参选大模型并完成问题设计以及答案搜集—2024年12月下旬

● 沙利文联合头豹研究院资深分析师团队评审—2025年2月

● 《2025年中国多模态大模型评测》报告发布（预计）—2025年2月-3月

参与评测

联系电话：021-5407-5836

联系邮箱：PR@frostchina.com

转载须知

感谢您对沙利文的关注与支持。如若想转载我司微信公众号的文章，请：

在原文留言，告知转载机构的名称、介绍及微信公众号ID；
在编辑页作者处填写“沙利文”；
所有转载不得对原文进行任何篡改、曲解、诠释和改编。沙利文保留对所有原创文章的版权及解释权。如有违反，沙利文保留依法追究相应法律责任的权利。

关于沙利文

全球增长咨询公司，弗若斯特沙利文（Frost & Sullivan，简称“沙利文”）融合全球63年的咨询经验，26年来竭诚服务蓬勃发展的中国市场，以全球化的视野，帮助超10,000家客户加速企业成长步伐，助力客户在行业内取得增长、科创、领先的标杆地位，实现融资及上市等资本运作目标。

沙利文深耕全球资本市场及企业咨询服务，通过创新性提出的“全域投资管理 (Total Investment Management, TIM）”为企业提供全方位的投融资及其他各类专业咨询服务，包括投融资CDD、估值服务、技术顾问、财务顾问、ESG、募投可研、债券发行行业顾问、行业顾问、评估服务、奖项服务、行业白皮书、战略及管理咨询、规划咨询、技术洞察等。

沙利文大中华区的投融资业务实现了对中国国民经济的全行业覆盖，包括对新经济、新基建等所有经济热点的高度关注，涵盖数字基础设施、消费电子、双碳新能源、医疗与生命科学、餐饮与新零售、半导体与集成电路、智能家居、汽车与出行、康养服务、食品与饮料、信息通信技术、金融科技、地产与物业、矿业冶炼、美容时尚、大数据与人工智能、物流与供应链、建筑科技与装饰装潢、特种新材料、文化娱乐、企业级服务、跨境电商贸易、基础设施建设、环保节能科技、教育与培训等。

沙利文团队为企业领袖及其管理团队开展投融资顾问咨询服务以来，已帮助近千家公司成功在香港及境外上市，是国内投融资战略咨询领域的领军企业。近10年来，沙利文连年蝉联中国企业赴香港及境外上市专业行业顾问市场份额的领导地位；且近年来，沙利文报告也被广泛引用于业内领先的A股、科创板等上市公司的招股文件、一级和二级市场研究报告及其他资本市场公示文件中。

63年以来，沙利文通过其遍布全球的近50个办公室，利用强大的数据库和专家库、运用丰富的专业知识和咨询工具，帮助大量客户（包括全球1,000强公司、国内外顶级金融机构以及其他各类领先企业等）完成了包括但不限于尽职调查、估值分析和第三方评估工作等工作，达成了战略目标；创立市场地位确认体系，创新性提出“FSBV沙利文品牌价值模型”，已向超1,000家企业提供市场地位确认及品牌估值服务，持续助力大量中国品牌实现国内与出海增长战略。