基础模型搭建了之后,企业对生成式AI的建设关键来到数据层面。

4月30日,在亚马逊云科技“无数据不模型——生成式AI时代的数据基座”的媒体沟通会上,亚马逊云科技大中华区产品部总经理陈晓建强调了数据在生成式AI时代中的关键作用。

他表示,数据在生成式AI时代处于核心地位,企业要想在生成式AI时代取得成功,必须从数据做起,利用自身的数据构建具有商业价值的AI应用。

陈晓建认为,企业的数据能力需要构建以下3个方面:模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力,以及有效处理新数据以助推生成式AI应用持续快速发展的能力,

图片来源:每经记者 王紫薇 摄

被问及在云市场进入了AIGC时代,亚马逊云科技在人工智能推理成本和训练成本上是否不像在原本的商业模式上有优势时,亚马逊云科技方面表示,自己还是看重客户最终要的是什么。言下之意,亚马逊云科技希望无论AIGC时代的服务成本怎么变动,自身的商业模式仍是以提供云基础设施、模型层、应用层的工具与服务为主。

数据处理为何重要

大量的、高质量的数据对生成式AI的重要性已经成为行业共识。

亚马逊云科技方面此次表示,如果每个公司都能访问相同的基础模型,那么各个公司处于同一起跑线;而能够利用自己的数据构建具有真正商业价值的生成式AI应用的公司,就赢在了起跑线上。

可以说,生成式AI基础模型的局限性之一,在于无法及时拥有企业的专有数据。如果想让模型服务于企业发展,那么通过技术手段加速数据与模型的结合,就成了企业数据基座的关键能力之一。

陈晓建进一步表示,成功的企业需要懂业务、懂用户的生成式AI应用,而这些应用的构建需要从数据做起。他举了位于美国的人工智能初创公司Perplexity的例子,它是如何通过将传统搜索、客户数据与大型语言模型相结合,实现了快速增长和用户吸引的。

也是因此,这家公司是人工智能领域的“红人”。据悉,Perplexity正进行至少2.5亿美元的新一轮融资,估值可能达到25亿至30亿美元。而这家公司在过去四个月中刚刚进行了两笔大额资,并且估值实现飞跃:今年1月,Perplexity以5.4亿美元的估值筹集近7400万美元;3月初,Perplexity以10亿美元的估值融资约6300万美元。

目前来说,用企业自身的数据去差异化生成式AI应用、通过数据定制基础模型的方式主要分为三大类:检索增强生成(RAG)、微调和持续预训练。这三种方式在不同应用场景中的适用性和对数据要求不同。

亚马逊云科技的对策

对此,亚马逊云科技强调了自身在数据基座构建的三大核心能力:模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力,以及有效处理新数据以助推生成式AI应用持续快速发展的能力。

在数据存储方面,亚马逊云科技提供的Amazon S3服务可以满足用户在微调和预训练基础模型对数据存储的严格要求。同时,Amazon FSx for Lustre文件存储服务的亚毫秒级延迟和高吞吐性能,将进一步加快模型优化速度。

数据清洗和治理方面,亚马逊云科技通过Amazon EMR Serverless和Amazon Glue等服务,帮助企业高效完成数据清理、去重和分词等操作,使企业能够专注于AI业务创新。

此外,亚马逊云科技还着重强调了其在向量搜索和无服务器架构方面的创新。其中,检索增强生成(Retrieval-Augmented Generation,RAG)技术被普遍认为是实现数据与模型结合的主要途径之一。RAG通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。

向量搜索与数据存储的结合可以带来多方面的好处,包括更高效和更精确的检索能力、处理和索引大规模的数据等。目前来说,结合向量搜索和数据存储的优势,可以构建出强大的信息检索系统,满足现代应用对于速度、准确性、可靠性和智能化的需求。

但这同时也带来一部分成本问题,比如需要更多的存储空间。对此陈晓建告诉《每日经济新闻》记者,存储上确实会让成本有所增加,但能够在整个数据内容检索时取得更好的效果。

亚马逊云科技同时表示,自身已在8种数据存储中添加了向量搜索功能。客户还可以通过Amazon Memory DB内存数据库,降低生成式AI应用的模型调用成本和响应延迟,并利用和无服务器技术加速创新。在亚马逊云科技对生成式AI时代数据基座的强调中,可以看到数据处理的重要性以及企业在这一领域面临的挑战与机遇。对于亚马逊云科技来说,为AIGC时代的企业提供更全面的服务也是机遇与挑战并存。