《2024中国人工智能多模态大模型企业综合竞争力20强研究报告》|2024中国人工智能多模态大模型企业综合竞争力20强研究报告|人工智能技术

作者人工智能产业创新研究中心

人工智能是推动科技跨越发展、产业优化升级、生产力整体跃升的战略性新兴产业。自美国开放人工智能研究中心OpenAI对外发布首个文生视频大模型Sora以来，多模态大模型作为人工智能的核心组成部分，以其强大的学习能力和巨大的应用潜力，正在重塑千行百业。

2024年3月15日，赛迪工业和信息化研究院（集团）四川有限公司（以下简称“赛迪四川”）正式发布“2024中国人工智能多模态大模型企业综合竞争力20强研究报告”（简称“AI多模态大模型企业20强”）。本次评价研究遵循科学性、综合性、客观性、可比性等原则，关注人工智能多模态大模型企业的整体发展，通过建立覆盖经济、技术、行业、商业等多维度指标的企业竞争力评价模型，对我国人工智能自研多模态大模型企业实力进行综合评估，最终形成人工智能多模态大模型企业综合竞争力20强评价结果。

本研究所提及的人工智能多模态大模型指能够处理和融合包括文本、图像、语音等多种模态数据在内的人工智能模型，通过将不同类型的数据输入到同一个模型中，实现对多种感知信息的综合理解和处理。多模态大模型结合自然语言处理、计算机视觉、语音识别等多个领域的技术，具有更高的表征能力和智能化水平，能够应用于诸如语言理解、图像识别、多模态推理、内容生成等多个领域。

一、指标体系

《2024中国人工智能多模态大模型企业综合竞争力20强研究报告》对我国企业在人工智能多模态大模型领域的竞争力进行多维度评价，综合考虑企业经济抗衡力、行业影响力、技术竞争力、商业角逐力4个一级指标，营收规模、数据优势、模型规模、算力能级等15个二级指标，最终形成企业在人工智能多模态大模型领域的竞争力综合评价指标体系，如图1所示。

图1 2024中国人工智能多模态大模型企业综合竞争力20强评价指标体系

资料来源：赛迪四川，2024.03

二、评价结果：2024中国人工智能多模态大模型企业20强

根据人工智能多模态大模型竞争力综合评价模型，对全国人工智能多模态大模型企业进行评价分析，20强榜单如表1所示。

表1 2024中国人工智能多模态大模型企业综合竞争力20强榜单

资料来源：赛迪四川，2024.03

三、赛迪研判

赛迪四川研究发现，多模态大模型20强企业中的部分企业已有语言大模型布局，同时具备雄厚的技术储备，该类企业能迅速切入到多模态赛道。人工智能多模态大模型体验评级与模型规模、技术储备（特指多模态技术储备）呈显著正相关关系。

从整体来看，以技术储备和模型规模作为二维分析指数，模型体验评级作为三维分析指数，可将国内多模态大模型企业综合竞争力20强分为四类，分别为领跑者、挑战者、可期待者和追赶者。从模型规模来看，约30%上榜企业的模型参数规模达到万亿级以上。从技术储备来看，约60%上榜企业的技术储备能力评级达到良好，表明多模态技术储备在多模态大模型中扮演关键支撑角色。

图2 2024中国人工智能多模态大模型20强企业

综合气泡图

资料来源：赛迪四川，2024.03

赛迪四川研究发现，从多模态大模型的技术场景来看，20强企业中有65%的企业具备图文互转的能力，表明图文互转较其他多模态技术场景而言更加成熟，这也和当前图文模型具备成熟的开源模型密不可分。分析结果表明，仅有15%的企业具备文生视频能力，最长可生成20秒的视频，且生成视频时长及视频质量均落后于国际先进水平（如：Sora已可生成最长60秒的高质量视频）。此外，文生语音方向仅有15%的企业涉及，文生语音在教育辅助、角色配音、自动客服等领域商业潜力巨大，可以作为企业战略转型的潜力赛道。

图3 2024中国人工智能多模态大模型20强企业

多模态技术场景

资料来源：赛迪四川，2024.03

赛迪四川研究发现，从多模态大模型的应用场景来看，相较语言大模型赋能行业，多模态大模型更加偏重落地场景，商业变现路径更加清晰。多模态大模型企业20强中，应用场景可划分为11类，成熟度相对较高且最受关注的前5个场景分别为数字人、游戏、广告商拍、社交媒体和智能营销。

图4 2024中国人工智能多模态大模型20强企业

模型应用场景

资料来源：赛迪四川，2024.03

赛迪四川研究发现，人工智能多模态大模型发展水平与算力能级呈强相关关系。相较于赛迪四川2023年12月份发布的《2023中国人工智能大模型企业综合竞争力50强研究报告》，本研究进行了算力指标升级，评判指标依据升级为智算中心建设、万卡集群布局、知名GPU厂商合作披露情况等。研究表明，算力能级和上榜企业排名呈正相关关系，第一梯队企业算力能级为第四梯队企业算力能级的两倍，彰显出算力作为多模态大模型发展核心底座支撑的重要地位。根据赛迪四川测算，要达到与Open AI同一水平的算力，所需的投资门槛约为10亿元人民币。即使在同等算力条件下，一次全量训练的周期至少需要3个月。相较于语言大模型，多模态大模型的训练和推理将进一步拉大算力缺口。

图5 2024中国人工智能多模态大模型20强企业

算力能级分布

资料来源：赛迪四川，2024.03

赛迪四川研究发现，从商业变现途径来看，75%的企业已经确立了明确的业务方向和产品矩阵，通过将大型模型集成到自身产品中，可实现高效的商业转化和资金回流。另外25%的企业则专注于提供模型层面的服务，并主要依赖外部合作伙伴来推动具体应用场景的落地。

图6 2024中国人工智能多模态大模型20强企业

商业变现途径

资料来源：赛迪四川，2024.03

赛迪四川研究发现，多模态企业平均研发投入比近40%，上榜企业中研发投入比最大的企业研发投入超过100%。与《2023中国人工智能大模型企业综合竞争力50强研究报告》中前20强上榜企业相比，多模态大模型20强企业平均研发投入和单个最大研发投入均明显高于大模型前20强企业，平均研发投入提高了4.3%，最大研发投入占比提高了24.1%，表明多模态大模型赛道需要更高的研发投入与资金支持。

图7 中国人工智能大模型20强企业研发投入对比

资料来源：赛迪四川，2024.03

赛迪四川研究发现，在企业成立年限方面，与《2023中国人工智能大模型企业综合竞争力50强研究报告》中前20强上榜企业相比，两组企业平均成立年限相近，但呈现出两点差异：一是多模态大模型上榜企业中出现了近3~5年内成立的企业；二是多模态大模型上榜企业中，2000年前成立的企业数量占比更少。该结果表明，成立于早期阶段的企业在多模态大模型领域的布局尚未完全铺开，而新晋企业作为后起之秀，有弯道超车的可能性。

图8 2023中国人工智能大模型企业前20强企业

成立年份区间分布

资料来源：赛迪四川，2024.03

图9 2024中国人工智能多模态大模型20强企业

成立年份区间分布

资料来源：赛迪四川，2024.03

综合而言，多模态大模型作为人工智能领域的璀璨新星，其跨模态交互能力的不断精进将赋能千行百业。从上述分析来看，多模态大模型呈现以下特点及趋势：一是多模态技术的深厚储备与强大的算力能级共同构成了多模态大模型发展的坚实基础。二是大模型落地的商业场景及训练数据的质量高低将极大程度影响企业发展多模态大模型的技术竞争力。三是研发投入在多模态大模型领域相较于语言大模型呈现显著增加趋势，已成为相关企业核心技术实力提升的关键驱动力。四是国内众多处于公测阶段的多模态大模型企业，大部分解决方案仅限于在输入端整合多种模态信息，真正能够实现在输出端生成多模态内容的尚局限于少数领军企业，且生成内容质量与国际领先水平差距较大。五是当前多模态大模型在意图识别方面的准确率普遍偏低，且泛化能力较弱，凸显了企业核心技术层面的瓶颈。六是语言大模型现阶段落地路径主要为行业，场景部分尚在探索，多模态大模型已经驶入业务深水区，商业变现途径日益清晰，将爆发出更大的商业价值和市场规模。

四、明星案例

（一）安防领域多模态大模型应用案例

360智脑是360自主研发的语言大模型，具备了生成式对话能力、多模态指令分发能力，可根据对话意图，选择所需应用和能力进行分发需求，并将收集处理的结果反馈给用户。360智脑·视觉大模型现阶段主要聚焦开放世界目标检测（OVD）、图像内容描述、视觉问答（VQA）三项能力。其中，开放世界目标检测是通过学习互联网上海量的图文数据，让模型能够融会贯通地泛化到未预定义的目标类别。

360智脑视觉大模型基于360搜索超10亿组互联网图文对进行清洗训练，融合了千亿参数的360智脑大语言模型进行训练。为进一步提高模型训练精度，在一期就结合360安防的百万级安防行业精标数据进行对齐微调。

图10 360智脑·视觉大模型

资料来源：360智脑官网，2024.03

360智脑视觉大模型自去年5月31日发布后，经过5个月的内测，已经在连锁巡店、公共场所安全巡检、物业管理、4S店库存车管理等多个场景应用落地，并于去年10月上线开放公测。基于360的AI智能摄像机和简单易用的视觉云SaaS平台，已经为超过5万家企业提供数字化解决方案。

360智脑通过整合视觉大模型技术与云SaaS服务模式，旨在赋能中小微企业在安防领域实现数字化转型的新产品形态。将前沿的多模态大模型技术与中小微企业实际应用场景及资源需求的SaaS产品架构相融合，既满足了大模型技术迭代中依赖用户反馈进行强化学习的核心产品技术要求，又精准贴合了当前中小微企业在数字化进程中所呈现出的独特性及转型诉求。

（二）娱乐领域多模态大模型应用案例

MiniMax语音大模型提供了“混和音色”功能，能够像调色盘一样通过各种基础音色来混合调制出我们想要的音色，MiniMax解决了我们对语音功能“自然”“丰富”“自定义”的需求。MiniMax不仅为企业用户和开发者提供语音相关的API，也为普通用户打磨了多款含有语音功能的产品。

近期，MiniMax语音大模型新增了以下产品功能：一是三个API接口，分别为多角色音频生成API、文本角色分类API和快速复刻API，帮助用户自主批量生成、克隆多角色音频；二是多语种能力、字典和间隔时长控制，满足用户丰富的定制化需求，提升教学场景体验；三是T2A Stream（流式语音输出）实现生成与输出的同步，减少用户在直播、对话等场景的等待时间。

（三）广告领域多模态大模型应用案例

InsightGPT：短视频作为品牌营销有效手段，转化效果日益凸显，已成为平台、商家、内容创作者不可或缺的种草工具。尤其是电商行业，优质的视频内容将极大地从商品引流、增长获客、成交转化、提升品牌黏性等多维度上助力商家营销破圈。InsightGPT上线的“AI卖点视频”和“AI动效海报”两大子产品，将聚焦品牌营销核心需求，为品牌方提供高效智能化的视频创作解决方案。

产品形态一：InsightGPT可提供20秒内的商品卖点创意视频。应用场景为商品卖点展示、内容化引流，面向人群为品牌/商家运营者、内容创作者。

产品形态二：InsightGPT可提供8秒内的动态海报，应用场景为产品宣传、品牌活动、节日节气营销等，面向人群为品牌运营方、内容创作者。

以下是报告目录及部分内容节选：