大模型市场爆发式增长，但生成式AI成功的关键是什么？|向量|大模型|生成式ai|算法

进入2024年，大模型市场正在爆发式增长。根据相关媒体的总结，2024年1-4 月被统计到的大模型相关中标金额已经达到2023年全部中标项目披露金额的77%左右；其中，从项目数量来看，应用类占63%、算力类占21%、大模型类占13%、数据类占4%，而从金额看则是算力类占62.5%、应用类占37.2%，而大模型和数据类项目金融几乎可以忽略不计。

换言之，当前中国的大模型市场正在爆发，但主要的采购资金都投向了算力和应用，而数据类的项目采购资金接近于零。在2024年4月底的一场亚马逊云科技交流活动中，亚马逊云科技大中华区产品部总经理陈晓建强调，“企业需要的是懂业务、懂用户的生成式AI应用，而打造这样的应用需要从数据做起。”

自从整个市场卷起生成式AI浪潮后，亚马逊云科技作为全球第一大云厂商，与很多客户展开了大模型与生成式AI的合作，特别是将生成式AI用于生产业务中。通过深入生成式AI实践，亚马逊云科技的团队发现大模型并不是全部，真正想要发挥大模型的业务价值，数据是一个很重要能力——基础模型依赖于大规模高质量数据集，生成式AI的差异化优势来源于企业专有数据，生成式AI应用产生的大量新数据也需要及时有效地加以管理和利用。

首先，生成式AI基础模型微调和预训练需要将海量的多样化原始数据转化为高质量的大数据集，这对数据存储、清洗和治理提出了严峻挑战。Amazon S3、文件存储服务Amazon FSx for Lustre、Amazon EMR Serverless和Amazon Glue、Amazon DataZone等亚马逊云科技的数据服务，解决了从原始数据集到基础模型训练的数据存储、清洗和治理等三大挑战，构成了第一项关键的数据能力。

其次，生成式AI基础模型的局限性之一在于无法及时拥有企业专有数据，因此通过技术手段加速数据与模型的结合就是第二项关键的数据能力。检索增强生成（Retrieval-Augmented Generation，RAG）通过将数据转换为向量并存储到向量数据库中，将语义的关联性转化为向量间的数学距离问题，以实现内容的关联性计算。

亚马逊云科技已经在八种数据存储中添加了向量搜索功能，为生成式AI应用提供更高的灵活性。例如，亚马逊云科技专门构建了图数据库Amazon Neptune，并为其推出了分析数据库引擎，能够提升80倍的图数据分析速度，使用内置算法可在几秒钟分析数百亿个连接，通过将图和向量数据一起存储能够实现更快的向量搜索。

第三，生成式AI应用对基础模型的频繁调用，将导致成本的增加和响应的延迟，因此处理生成式AI应用新生成的数据、提升模型调用效率，是第三项关键的数据能力。Amazon Memory DB、Amazon OpenSearch Serverless等可有效帮助企业建立这方面的数据能力。

Amazon Music就通过Amazon OpenSearch将1亿首歌曲编码成向量并进行索引，为全球用户提供实时音乐推荐，Amazon Music目前在Amazon OpenSearch中管理着10.5亿个向量，能够处理每秒高达7,100次的查询峰值，有效支撑其推荐系统。

亚马逊云科技大中华区产品部总经理陈晓建表示：“亚马逊云科技构建数据基座的三大核心能力，涵盖从基础模型训练到生成式AI应用构建的重要场景，能够帮助企业轻松应对海量多模态数据，提升基础模型能力。亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座，在确保用户业务和数据安全的前提下，将数据的独特价值赋予基础模型和生成式AI应用，加速企业业务增长。”

当前，中国大模型市场的采购主体是算力和应用，对于数据服务的采购接近于零，这为大模型和生成式AI的真正落地以及发挥实效带来了挑战。亚马逊云科技提出的生成式AI成功的三大关键数据能力，值得引起市场中大模型项目采购方的重视。相信在不久的未来，“无数据、不模型”将成为整个大模型与生成式AI市场的主旋律。(文/宁川)