IT深度｜拥抱认知智能，打开全新空间——2023大模型现状调查报告（第1期）|人工智能|人工神经网络|大模型|算法|认知智能

作者

人工智能产业研究中心

一、掀起大模型发展浪潮

一、“冷门”工业软件的重要性

是什么驱动AI模型不断变“大”

从七十余年人工智能发展历程来看，人工神经网络是开启第三次智能科技革命的基石理论。该理论的核心是利用算法模型模拟人类大脑结构，大脑中的神经元由抽象的数学单元模拟而成，人工神经元的联结组成了类似动物中枢系统的结构。2012年AlexNet模型的出现引发学术界对人工神经网络的高度关注，其利用多层次的CNN（卷积神经网络）结构作为人工神经元，在ImageNet竞赛中实现了超过第二名10%以上准确率的绝对优势，开启了基于人工神经网络的深度学习时代。随后，RNN、GAN等人工神经元结构的应用探索让人工神经网络模型在自然语言处理、图像生成等更多元的任务场景中展现突出能力。

让人工神经网络不断逼近人脑规模是提升机器智能化水平的重要路径。算法模型中的参数类似于大脑中的突触联接，存储着记忆。早期的人工神经网络模型参数量基本维持在千万级规模，然而人类大脑有大约860亿个神经元，每个神经元有上万个突触，神经元与突触组成约600万亿个联接的庞大神经网络，人类大脑的结构复杂程度要远远超过人工神经网络。

模型变“大”需要攻克算力挑战与理论限制。让人工智能模型变得更大并非单纯增加神经网络深度、堆叠人工神经元就可以实现，以CNN、RNN等人工神经元为基础的模型需要采用串行结构，模型训练过程需要顺序执行，无法同时充分利用所有计算资源。随着模型参数量提升，训练时间呈指数型增长。同时，模型参数量增加意味着复杂度的提升，模型训练的收敛性变得更加不可控，也更难寻找到全局最优解。

“人工神经元”的结构革新成为人工智能技术变革核心基础。2017年，Transformer神经元结构的出现解锁了早期AI模型参数规模天花板。Transformer的结构采用的是自注意力机制来对输入序列进行编码和表示学习，这意味着模型训练的过程可以摆脱语言顺序限制，并在全局序列中同时捕捉上下文依赖关系。因此，Transformer结构不仅展现出更强的全局建模和收敛能力，而且基于自注意力机制的训练更适用于并行分布式计算，大幅缩短模型训练周期，在处理长序列和大规模数据时具有明显的优势，为人工智能算法模型变“大”提供了坚实的理论基础。

图1 全球大模型参数量演进情况

“生成式训练”是驱动大模型腾飞发展的关键因素

如果说2012年AlexNet在图像领域表现突出标志着人工智能从计算智能迈向感知智能，那么2022年ChatGPT的出现可以说是人工智能进入认知智能新时代的起点。感知智能阶段，人工智能主要解决的是机器借助传感设备如何识别环境的问题。该阶段下，图像分类、目标检测、人脸识别、图像分割等计算机视觉应用取得了突破性进展。但是相较于计算机视觉领域，让机器理解人类自然语言是更困难的。语言不仅是一种符号表示，而且融合了人类对世界的感受、看待事物的思想体系、解决问题的逻辑推理以及人类历史文化等，除了需要识别文字中所对应的信息之外，自然语言处理还需要机器能够真正理解文字背后对应的含义。

图2 大模型技术发展路径

ChatGPT的出现向世界证明了“生成式训练”的可行性和优越性。2017年Transformer出现以后，自然语言处理领域的研究路线主要根据其模型结构分为Encoder-only（编码器架构）、Encoder-Decoder（编码器-解码器架构）以及Decoder-only（解码器架构）三种。此次备受瞩目的ChatGPT的内核则是基于“生成式训练”的Decoder-only架构，其性能突破的关键点是大幅提高了“生成式训练”模型参数量，从而实现优异的性能表现以及更贴近人类表达的交互方式。“生成式训练”模型让人们看到了从感知智能向认知智能跃迁的可能，且其仅通过一个模型就能完成多类别目标任务的固有优势，开启了通用人工智能（AGI）时代，不断驱动着大量研究人员置身于“生成式大模型”的研发工作中。

概念扩展

Decoder-only：核心思想是模拟人类学习说话的过程，机器初始状态如同刚出生的人类对世界一无所知，通过不断地练习表达从而理解人类语言，因此该训练方式称之为“生成式训练”。

Encoder-only：即仅用编码器结构进行学习训练，可以看作是仅让机器学习阅读理解。谷歌提出的BERT模型采用双向注意力编码机制更充分地提取输入内容的特征信息，一时间在自然语言理解（NLU）任务中表现优异。但是该结构会产生低秩问题，大幅削弱了模型内容生成能力，且泛化能力较弱，难以实现一个模型解决多类任务问题。

Encoder-Decoder：可以看作是既让机器学习阅读也学习表达。例如谷歌推出的T5模型具有更强的通用性和灵活性。但是由于采用了两套系统，该结构相比于其他路径需要训练双倍参数量，且Encoder的低秩问题同样会影响该结构的表达生成能力。

2023年AI领军企业加速大模型商业布局

2022年11月ChatGPT发布仅两个月的时间，其线上活跃用户规模超过1亿人，生成式大模型受到越来越广泛的关注。微软和谷歌两家人工智能领军企业迅速意识到ChatGPT对于未来商业的战略意义，开始围绕公司现有业务，在生成式大模型领域加速布局。

图3 2023年微软系和谷歌系对生成式AI大模型的商业战略布局

微软旗下的OpenAI率先发布自然语言对话系统ChatGPT之后，2023年3月OpenAI快速推出新一代多模态大模型GPT-4，升级了ChatGPT的人机交互能力。同时，微软快速将大模型技术能力融入到其搜索引擎Bing和其办公套件Microsoft 365产品体系之中，微软云服务Azure也宣布企业级可接入GPT-4。从用户端到企业端，微软实现了新一代人工智能系统全体系接入。

谷歌在ChatGPT发布以后紧跟步伐，在2023年2月推出下一代AI对话系统BARD。2023年5月，谷歌对标GPT-4推出升级版多模态模型PaLM2，并宣布在其办公套件Workspace和搜索引擎中嵌入新一代人工智能系统。

赛迪顾问解读

重点分析微软和谷歌两大人工智能领军企业在大模型领域的商业布局可以看到如下共通点：（1）两家企业分别将GPT系列模型和PaLM系列模型从大型语言模型升维至具有多模态交互理解能力的大模型，打造认知能力更强的多模态大模型是改变未来商业格局的内核驱动；（2）搜索引擎是此次生成式大模型技术革新后重点争夺的战略要地，其原因是大模型能够让人工智能系统理解力大幅增强，对搜索引擎业务可以起到极强的增益效果，用户可以更容易获得所需搜索结果。同时，搜索引擎作为互联网流量入口，具有极高的战略意义，将影响未来商业格局；（3）两大科技企业目前主要在To C端进行应用部署，更多围绕企业已有产品服务体系进行智能化升级部署。对于微软和谷歌来说，To B端均尚未形成比较明确的具有革命性意义的应用，而且To B业务的定制化开发成本高，因此国外大型科技企业更倾向于开放API提供给下游企业进行再开发利用。

二、国外大模型发展进程

国外大模型起步较早，2021年进入高速发展期

2018年开始，谷歌、OpenAI、英伟达、Meta和微软等大型科技企业纷纷推出自研大模型技术，预训练大模型逐渐成为自然语言处理领域的主流研究。2020年国外机构共发布14个大模型，到2021年，国外大模型发布量快速增长，当年发布数量为38个，增长率为171%；2022年发布数量达到48个。2022年底，OpenAI推出的ChatGPT一经发布迅速吸引大量用户参与使用，在人工智能领域掀起热潮，加入大模型研究与开发的科技企业数量明显增长。截至2023年7月底，国外大模型发布数量累计达138个。

图4 2018-2023年7月国外大模型发布数量情况

国外大模型发布数量美国占据绝对优势

2018、2019年最早发布的大模型均出自美国，此后，美国在大模型发布数量方面始终保持领先。2020年起，越来越多国家的企业或科研单位加入到大模型技术的研发中，例如韩国的LG、Naver、Kakao，日本的ELYZA，法国的BigScience，以色列的AI21 Labs，德国的Aleph Alpha以及加拿大的Cohere等。从国外已发布的大模型国别分布来看，截至2023年7月，美国发布的大模型数量大幅领先，超过其他国家总和的80%。韩国位居第二，日本、法国和以色列的大模型发布量位列其后。

图5 国外大模型累计数量区域分布情况

语言大模型成为国外大模型技术类别的主要组成

国外已发布的大模型技术类型主要分布在语言和多模态两类，语言大模型占比68%，多模态大模型占比18%，其他类型大模型合计占比14%。2018-2019年发布的大模型多为语言大模型，其后逐渐出现多模态和其他类型大模型。语言大模型通过在大量的文本数据上进行训练，学习语言数据中的复杂模式，可以执行包括文本总结、翻译、情感分析等任务，在人机交互能力提升方面具有重要意义。多模态大模型通常具备图文音理解能力，包含两个或者两个以上的模态形式转换。不同的技术类型，提供不同的应用功能，适用于多样的创新应用场景。

图6 国外大模型技术类别分布

三、国产大模型发展现状

2023年国产大模型开始爆发式增长

中国在大模型方面紧跟国际前沿步伐，2021年在美国引领的大模型技术快速发展的同时，中国也开启了大模型发布热潮，逐步涌现出一批具有行业影响力的大模型。

2023年，受ChatGPT驱动，大模型发展迈向新阶段，国产大模型一时间呈现出爆发式增长态势，仅2023年1-7月，就有共计64个大模型发布。截至2023年7月，中国累计已经有130个大模型问世。

图7 2019-2023年7月中国国产大模型发布数量情况

中国大模型的地域集中度相对较高

从地区分布来看，国产大模型的分布主要集中在经济发达地区，这些区域已经具备较强的人工智能发展基础。截至2023年7月，有15个省（市、区）开展了大模型技术研发，这些地区拥有丰富的科研机构、高校和科技企业资源，为大模型开发提供了有利的发展环境。

中国大模型的地域集中度相对较高，北京是中国大模型发布最多的地区，共有55个大模型发布于北京；其次是上海、广东和浙江三地，发布的大模型数量均在15个以上。

图8 中国国产大模型累计数量区域分布

国产大模型技术类型分布与国外基本一致

从技术类型分布来看，国产大模型在语言、多模态、视觉等技术方面持续推进。语言大模型成为国产大模型研发最为活跃的重点技术，其在国产大模型中的占比高达65%，主要包括文本对话、文本生成、机器翻译、语义识别、语义理解等任务。多模态大模型能够实现更深入的语义理解和更准确的跨模态推理，其发布数量占总体比重的22%。除此之外，国产大模型覆盖了视觉、音频、编程、数学等其他技术类型，但相对较少，均占总体比重的5%以内。

图9 中国国产大模型技术类别分布

整业务策略和产品定位，灵活应对市场竞争和变化，保持业务的竞争力。在调研过程中，赛迪顾问发现许多该领域企业往往非常注重与客户的密切合作和建立长期的合作关系，及时了解客户的需求，提供个性化的解决方案，并及时响应客户的反馈，及时解决客户的问题，促进口碑传播和客户推荐。

国产大模型更聚焦行业特定场景应用

中国国产大模型主要应用于泛语言场景，如机器翻译、文本生成、信息检索等非指定场景的语言类应用，该类别应用占总体比重的35.4%。这些模型均为通用大模型，可以进一步训练成为行业模型。此外，很多专注于垂直领域的科技公司也在探索特定领域的行业大模型。中国行业大模型覆盖领域较为丰富，其中商业、金融、医疗等领域的行业大模型探索较多。

图10 截至2023年7月中国国产大模型应用类型分布

四、国内外大模型发展路径对比

国内外大模型技术应用模式有所差异

从大模型应用类型分析，国外研发的大模型主要以通用大模型为主，而中国国产大模型呈现出行业大模型占比较高的发展形态。这主要由于中国的人工智能产业具有非常独特的发展环境，直接导致了国内外大模型发展模式形成差异化。

图11 ChatGPT驱动的技术应用生态

国外大模型技术发展与产业应用较为分离，核心技术主要由谷歌、微软、Meta等企业研发推动，且国外大型科技企业在技术实力、资金支持、人才基础等方面具有绝对优势，但这些企业很少直接参与到传统产业之中。在应用侧，独立研发人工智能技术的成本要远高于直接调用大企业智能服务的方式，因此应用侧通常较少参与到大模型技术研发，主要通过调用标准化的API接口或者Plugin插件实现人工智能技术的向内输入。国外大模型的发展逐渐形成了围绕以ChatGPT等大企业产品为中心的应用服务生态。

相较于国外大模型的发展模式，中国大模型的发展更加贴近产业端，经过近十年的人工智能产业发展，中国涌现出一批专注于金融、医疗、教育、工业等垂直行业的人工智能赋能企业，通过深度参与到客户业务流程中，深耕行业并充分了解行业知识，逐渐形成了行业壁垒。因此可以看到，中国参与到大模型研发中的企业和机构数量较多，有非常多专注于行业智慧化赋能的企业，借助开源通用大模型能力，利用行业特定数据进行微调适配，推出在特定应用场景中表现突出的行业大模型。

赛迪顾问解读

经过分析，形成国产大模型特色发展模式的原因主要可以总结为以下三点：一是中国行业应用市场空间巨大，且场景类别丰富，聚焦行业赋能的人工智能企业可以获得足够的盈利支撑；二是中国数据要素流通较为顺畅，相较于国外较强的数据隐私封闭性以及较高的数据获取成本，国内传统行业企业的开放程度较高，更倾向于接受多种合作形式的智能化升级改造；三是大型科技型企业没有形成较强的技术垄断，利用大模型深度解决行业痛点的关键除了需要性能较强的算法模型之外，拥有大量的行业数据以及足够的专家知识更为重要，聚焦行业的企业能够形成独特的壁垒。

国内外大模型技术研发路径有所差异

通过对上百个中国国产大模型分析看到，多数国产大模型研发仍是基于国外架构体系。一方面是深度学习框架的应用，除了百度、华为、商汤等拥有自主研发的底层框架以外，其他的大模型算法主要是基于国外的PyTorch或者Tensorflow框架进行开发，国产深度学习框架的生态效应明显不强。这主要是由于大多先进的技术都是基于国外框架进行开发，所以除了特殊的要求外，中国开发者为了更快速地复现国外成果，同时也为了自己的项目成果更好地与国际接轨，更青睐于基于国外框架进行开发。

另一方面，大量的国产大模型并非是源头创新，很多行业大模型是基于国外Llama系列等开源基础大模型进行微调或修改实现的。通用大模型的理念是通过训练出一个基本符合要求的模型，之后再行业场景中进行微调完成适配。国内企业依托国外的基础模型进行微调训练，其效果可以达到基本满意的水平，这将大幅降低企业进行深层次理论研究的动力，极大地压缩了国产通用大模型的生存空间。但是，国外的开源大模型并非绝对开源，而是有条件的开源，例如基于Llama的应用开发条款约定当月活越用户达到7亿之后，需要向Meta公司申请额外授权，否则将无权继续使用。这有效防止基于Llama技术产生杀手级应用后，Meta公司面临无法获益的困境，但与此同时却在应用开发者头上悬上利剑。

国内外大模型研发理论支撑有所差异

从大模型数量来看，中美两国已经是全球大模型领域的领跑者。然而，从全球大模型相关论文的发布情况来看，相较于国外大模型以研究为基础的模式，国产大模型的发展相对缺少论文研究等体系支撑。国产大模型更多做的是应用层面的适配与产业化研究，缺少创新性强、具有革命性的基础理论研究。神经元的数学模型、谷歌知识图谱、自然语言的词向量化、深度学习框架、联邦学习方法以及具有革命性的Transformer神经元架构，这些开创性的技术大多是由美国科学家提出，中国人工智能仍处于技术追赶的过程中，特别是大模型的关键核心技术，中国企业普遍承认其当前技术性能仍未达到GPT-4水平。

图12 2019-2022年全球大模型论文作者国别占比

五、赛迪建议

对政府

批次推动普惠化算力体系建立，批次推动泛在AI场景的大模型赋能。中国大模型产业呈现出行业应用为主导的发展模式，大模型研发工作并不集中在大型科技企业，而是分散至经济基础相对薄弱的以行业场景为中心的企业。需要政府牵引降低算力成本，提升行业大模型企业研发积极性。一是建议智算中心的建设进度分批次，普惠化算力在“普”不在“多”，先降低成本和空置率，再逐步顺应大模型发展节奏进行部署；二是分批次重点鼓励不同领域人工智能应用场景的算力调用，建议先鼓励市场空间大的行业大模型研发，后期可以分批次推动长尾场景的大模型研发；三是推动算力普惠化的同时需要关注到大模型算力调用的安全性与数据隐私性问题。加强监管力度，建立评测认证体系，避免非良性商业竞争。

支持新型研发机构探索原创通用大模型，推动形成国产大模型应用生态。大模型核心理论的突破和原始技术的创新才是驱动人工智能从感知智能迈向认知智能的关键。大模型关键性理论的突破工作更需要新型研发机构作为实施主体，通过发挥多方力量优势，以创新的研发模式探索机器智能边界。建议政府相关部门进一步完善新型研发机构多主体、多要素协同制度，加速通用大模型创新孵化。同时，依托新型研发机构创新载体，汇聚产业资本、创新企业、科研机构等多方主体，激发人工智能领域生态协同功能。建立规范标准的成果收益分配制度，平衡各方建设主体的诉求，实现资源共享、成果共创的良性生态循环。

对用户

拥抱AIGC实现内容生产效率跃升。科技的进步直接或间接改变着人类的生产生活方式，传统的生产方式将无法满足社会高速发展的需要，一些职业随之被淘汰。对于用户来说，机器不仅可以在逻辑推理类工作中发挥优势，而且能够在很多创作性领域为人类带来新的灵感。目前AIGC仍处于发展初期，用户可以选择多种不同的AIGC模型辅助创作，但是用户在使用AIGC辅助工作的同时需要关注到创作内容引用的合规性，不得侵犯版权或者利用机器进行欺诈行为。为了更好提升工作效率，用户需要在不断实践中找到机器与人类协同的更优配合方式。

加快适应人机协同新方式。对于用户来说，人机协同新方式将带来生产效率的极大提升。通过人类自然语言甚至是抽象概念的描述，用户就可以快速调动机器从而完成生产。用户需要快速适应生产模式的变化，积极探索使用大模型新工具替代部分生产劳动。同时，学习如何训练机器更加智能同样是需要用户思考体会的问题，机器会在与用户交流的过程中不断学习并提升自我，因此用户需要学习如果正确引导机器，提升机器与人类工作协同的契合程度。

对投资机构

关注具有“通道”属性的大模型企业。大模型对产业的颠覆性之一是重新定义了人与机器的交互模式，从而改变现有产业的生产模式和商业模式。以大模型为内核的人工智能系统将成为未来人机交互的流量入口。对于资本实力较强、长期布局人工智能领域的投资机构，建议重点关注大模型企业的“通道”属性。因为大模型技术本身具有良好的泛化能力，非常适用于作为“通道”将能力输送至具体的应用场景，更容易实现规模效应，摊薄前期高昂的投入成本，更快形成商业闭环，让投资项目实现盈利。这需要判断标的公司大模型产品或服务是否能够成为其他场景应用的交互关键件，分析产品服务的覆盖面以及可渗透率。

区分通用模型与行业模型的投资策略。投资机构需要关注产业发展大趋势，区分通用大模型企业与行业大模型企业的投资策略。对于通用大模型企业，前期投资机构需要加大投资力度，推动标的企业研发出具有通用泛化能力的算法模型，后期AIaaS（人工智能即服务）的商业模式将凭借线上平台服务实现规模快速扩张，不同场景可以基于新的算法模型完成线上快速调优，从而大幅降低技术型企业的定制化开发成本，形成良性现金流。对于行业大模型企业，投资机构需要考虑企业训练算法模型所需的算力投入成本，综合测算企业现金流量和不同阶段下所需的资本投入，评判行业大模型企业对特定行业的理解程度、相关的产业资源、行业数据积累以及在行业中的现有业务开展情况。

更多行业案例及其特点，请扫描下方二维码关注“赛迪顾问”公众号，获取最新动态。

微信号：ccidconsulting

本公众号提供的内容用于个人学习、研究或欣赏，不可用于其他商业用途。如有关于作品内容、版权及其它问题，请及时在公众号留言。

如果获得转载授权，请注明作者姓名和转载的出处，不修改文章的标题、文字、图片或者音视频，以免曲解原文意思。