AI大模型时代，浪潮信息“四管齐下”|ai|人工智能|大模型|浪潮信息|算法

“应对生成式AI的发展和挑战，应该从算力系统、AI Infra、算法模型、产业生态四个层面创新，通过大模型算力效率、模型算法等创新有效提升基础大模型能力，以健康产业生态助推‘百模千行’应用落地。”浪潮信息高级副总裁刘军在以“智算力系统创新，加速生成式AI的产业发展”为题的演讲中表示。

该演讲来自于11月29日在北京举办的2023人工智能计算大会。会上，国际数据公司（IDC）与浪潮信息联合发布《2023-2024中国人工智能计算力发展评估报告》（以下简称《报告》）。

图丨刘军（来源：资料图）

联合IDC发布《2023-2024中国人工智能计算力发展评估报告》

据了解，自2018年以来，该《报告》已连续发布六次。其以洞察AI算力发展趋势为宗旨，从算力发展、地域分布、行业AI算力对比等维度出发，对中国人工智能计算力的发展进行了综合评估，以期为行业客户和技术提供商提供更加具有针对性的行动建议。

生成式AI，是今年《报告》的核心主题。其指出，在生成式AI的带动下，人工智能计算力的发展趋势迎来三大变化。首先是计算范式的改变。生成式AI的发展，驱动了算力基础设施的建设，也推进人工智能在云、边、端的覆盖。同时，应用场景的多样化，让底层基础设施呈现多元化发展态势。其次是产业动量的改变。生成式AI会重构人们的生活和生产方式，给自动驾驶、医疗等领域带来深入影响；AI算力、算法等产业变量也会助力算力生态链繁荣。最后是算力服务格局的改变。生成式AI与云计算的服务方式不同，企业在对其进行训练时，除了可以自行构建训练平台，还能通过租赁算力服务的方式满足训练需求，这为算力服务市场带来了新机会。

中国人工智能计算力城市排行，是该《报告》中值得关注的一大亮点。最新排行榜单显示，北京、杭州、深圳、上海和苏州排名前5位，广州、济南、合肥、重庆和成都则位列前十名。可以看出，排名的背后，是生成式AI对于不同区域在算力投资上的重要拉动。排名靠前的城市，不管是大模型企业的生态发展，还是包括智算中心平台的算力基础设施建设，都处于领先水平。

（来源：资料图）

中国人工智能应用场景的发展情况，则是该《报告》中的又一关键内容。目前，生成式AI应用正在快速发展，并进一步赋能到各行各业。从领域来看，知识管理、对话式应用、代码生成将是企业应用生成式AI的主要领域；从行业来看，互联网仍是生成式人工智能技术应用和研发的主战场，金融业较早使用生成式AI，制造业还处于早期阶段，医疗业的应用正在加速进行，能源、零售、教育等行业在不断推进。

总结该《报告》可以得出，生成式AI为我们带来了很多新机会。同时，也不可避免地会有新的挑战不断产生。那么，该如何从智算力系统层面上，应对生成式AI带来的发展和挑战呢？如上所说，浪潮信息认为应该从算力系统、AI软件基础设施、算法模型和产业生态这四个方面进行综合考虑。

基于计算、存储和网络开展算力系统创新

算力系统方面，主要在计算、数据和互联上存在挑战。基于此，浪潮信息提供了如下解决之道。

其一，打造开放多元的AI算力平台。最新发布的G7新一代多元算力平台，可兼容国内外高端AI训练芯片，能应对目前的算力多元化趋势，为客户的AI业务提供良好的算力支撑。

其二，研发开放加速的计算架构，可实现896GB每秒的互联带宽，整个集群的性能加速比超过90%，能保障更大规模的集群扩展性能。

其三，开发一套能同时支持文件、大数据等非结构化协议的集群系统，满足AI时代的数据存储需求。另外，为保障数据的存取效率和质量，自研了SSD存储介质。

其四，打造支持51.2T交换容量的核心交换机。其性能与InfiniBand技术接近，但比后者具备更好的与企业级以太网兼容的特性。相较于传统的RoCE，网络带宽利用率能从60%提升到95%，满足生成式AI计算可靠运行的需求。

创新AI Infra以提升大模型算力效率

除了算力系统，也需要对AI Infra进行创新。

在这方面，浪潮信息开发了大模型智算软件栈OGAI“元脑生智”（Open GenAI Infra），以提升大模型训练和推理的效率，加速模型研发与落地应用。

事实上，目前行业还没有对AI Infra进行明确定义，只是形成了其是位于AI硬件之上的软件层的共识。对此，浪潮信息又持有怎样的观点呢？

“我们认为硬件之上、应用之下的都属于AI Infra层。”浪潮信息人工智能与高性能应用软件部AI架构师Owen ZHU表示，“它会是比较厚的软件技术栈，可能不仅仅是一层。”

浪潮信息将OGAI定义为五层，分别是L0基础设施层（智算中心OS）、L1系统环境（PODsys）、L2调度平台（AIStation）、L3模型工具（YLink）和L4多模纳管（MModel）。

此外，需要说明的是，AI Infra并非仅用于支撑大模型的训练和推理。“训练是第一步，也是最重要的一步。有了基础大模型之后，可能还要对它做微调，接着要对模型做管理、评估和对比分析，之后还要做应用开发等，这都需要AI Infra层的一些软件来支撑。”Owen ZHU说。

全面开源千亿参数“源2.0”基础大模型

基础大模型的关键能力，是大模型在行业和应用落地表现的核心支撑。日前，浪潮信息正式发布“源2.0”基础大模型，包括1026亿、518亿、21亿三种不同参数规模，在编程、推理、逻辑等方面表现突出。

据了解，该模型主要具备以下三方面的优势。

算法上，在源2.0中引入了一种名为局部注意力过滤增强机制的新型注意力算法结构。该结构与经典的Attention结构相比，模型精度有明显提升，也大大加强了模型的学习能力。

（来源：资料图）

数据上，由于模型能力的提升在很大程度上取决于它所训练的数据，因此源2.0在数据构建方面做了诸多工作。据浪潮信息人工智能软件研发总监吴韶华介绍，源2.0的数据来源包含三个部分，分别是业界的开源数据、从互联网上清洗的数据和模型合成的数据。模型团队不仅对2018年至2023年的互联网数据进行了清洗，从总量12PB左右的数据中仅获取到约10GB的中文数学数据；为进一步弥补高质量数据集的匮乏，还基于大模型构建了一批多样性的高质量数据，并将其补充到训练数据集当中。

（来源：资料图）

算力上，提出了非均匀流水并行的高性能训练方法，能显著降低经典大模型在训练过程中，对AI芯片之间的通讯带宽需求，即便AI芯片间的通信带宽很低，也能获得较好的性能。

（来源：资料图）

目前，该模型已经实现全面开源。吴韶华指出：“在开源上强调的一点是，完全免费、完全可商用、不需要授权、最彻底的开源。我们鼓励用户去商用，去做各种各样的应用。”

此外，在11月29日的AICC 2023人工智能计算大会上，浪潮信息还公布了源大模型共训计划：针对开发者自己的应用或场景需求，通过自研数据平台生成训练数据并对源大模型进行增强训练，训练后的模型依然在社区开源。开发者只需要提出需求，说清楚具体的应用场景、对大模型的能力需求以及1～2条示例，由源团队来进行数据准备、模型训练并开源。

其实，早在2021年，浪潮信息就发布了参数规模为2457亿的中文巨量模型“源1.0”。从数据选择的层面上说，源2.0相比源1.0实现了较大的进化，对数据质量的把控更加严格。具体来说，首先，在构建源2.0数据集时，不再一味追求体量，而是注意控制数据质量；其次，会采用大模型生成一批高质量数据，并将其用到模型预训练中。

“我们认为，在数据多样性能够满足的前提下，数据的质量越高，训练的效果就越好。而且，当数据质量足够好的时候，哪怕用相对较少的数据量，也能训练出能力非常强的模型。”吴韶华表示。在这方面，业界已有不少研究成果能够证明，比如，一些小模型基于高质量数据，在代码、数学上训练出的结果，超过了比其参数量大10倍的模型。

谈到浪潮信息发布的模型，便不能不提起如今“百花齐放”的大模型发展态势。在此背景下发展大模型，需要注意的关键是什么呢？

浪潮信息认为，基础大模型是大模型变革中的核心内容，并始终选择在基础大模型上投入。吴韶华说：“只有先提升基础模型的能力，再将其应用到行业中，才能得到比较好的回报。试想一下，当基础模型能力不够时，就直接把它拿到行业里，其实很难解决行业中大场景碎片化的问题，依然会导致落地难。”

此外，在“百花齐放”的过程中，也可能出现重复建设大模型的情况，这是否有必要？吴韶华给出了自己的观点，其认为在OpenAI引领大模型发展浪潮的当下，业界其他参与者沿着不同的方向和路径对大模型进行探索，是值得被鼓励和支持的。“因为只有这样才有可能快速接近，甚至超越OpenAI的GPT4。”他说。

联合生态伙伴构建健康产业生态

有了基础大模型，还需要进一步深入到应用场景，把大模型的能力赋能到具体的产业环节之中。但这很难由一家厂商独立完成，必须有更多厂商来深度协同配合。对此，浪潮信息提出元脑生态，致力于通过技术支持、方案联合和平台共享，来实现不同厂商之间的优势互补。

作为一家平台厂商，浪潮信息不仅依托自身在算力、算法、平台方面的积累，为生态伙伴提供适配、测试等支持，还联合生态伙伴构建生成式AI解决方案。据了解，元脑生态已经对接了超40家AI芯片商、超400家算法厂商和超4000家系统集成商。

综上来看，目前浪潮信息正以大模型应用为导向，从计算、存储和网络等方面开展算力系统创新，从AI软件基础设施出发提升大模型算力效率，从模型算法、数据质量和算力等方面提升基础大模型的能力，并携手生态伙伴营造健康的产业生态。正如刘军所言，“我们希望聚集业界最丰富最优质的资源，来助力千行百业加速生成式AI的产业创新，进而高效释放生产力”。