数据决定生成式AI成败？拆解三大关键能力，云大厂如何层层助攻|ai|amazon|云大厂|向量|应用程序|生成式|调用

智东西5月13日报道，进入生成式AI时代，数据成为关键的竞争力要素。访问相同的基础模型，能够利用企业专有数据数据来构建生成式AI应用的公司，有更大的机会在商业竞争中取得成功。

基础模型依赖于大规模、高质量数据集，生成式AI应用产生的大量新数据也需要及时有效地加以管理和利用。作为全球最大的云计算巨头，亚马逊云科技（AWS）如何构建生成式AI时代的数据基座，帮助企业提升模型性能并加速生成式AI应用的部署？近日，亚马逊云科技大中华区产品部总经理陈晓建、店匠科技（Shoplazza）首席科学家谢中流博士、北京灵奥科技（Vanus）CEO厉启鹏与智东西等媒体进行深入交流。

企业构建生成式AI应用，需要三大核心数据能力：1）利用数据以模型微调和预训练；2）将专有数据与模型快速结合；3）有效处理新数据，以助推生成式AI应用持续快速发展。

“企业需要的是懂业务、懂用户的生成式AI应用，而打造这样的应用需要从数据做起。”陈晓建谈道，亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景，能帮助企业轻松应对海量多模态数据，提升基础模型能力。

一、利用现有数据，快速提高模型微调和预训练质量

用企业自身的数据去差异化生成式AI应用，通过数据定制基础模型的方式主要分为三大类：检索增强生成（RAG）、微调、持续预训练，分别适用不同的应用场景。Amazon Bedrock提供对这三类模型定制方式的支持。

生成式AI基础模型微调和预训练需要将海量的多样化原始数据转化为大规模、高质量的数据集，对数据存储、清洗和治理提出更严峻的挑战。

如果一本书按500KB算，500T参数的模型已经有332亿本，相当于现存每个人有4本书。

在数据存储方面，扩展性和响应速度是关键。用于训练的高质量数据越多，模型精度就越高；存储速度影响计算速度和模型训练进程。

数据存储面临训练占用I/O且吞吐量大、GPU很难饱和、未充分利用的计算资源非常昂贵、吞吐量瓶颈导致更长的训练时间等问题。

对此，Amazon S3对象存储支持广泛的数据协议，能轻松应对各种数据类型，还支持智能分层以降低训练成本；文件存储服务Amazon FSx for Lustre能提供亚毫秒延迟和数百万IOPS的吞吐性能，进一步加快模型优化的速度。

LG AI Research需要训练并部署拥有3000亿参数的多模态基础模型EXAONE到生产环境。它使用Amazon SageMaker去训练大规模基础模型，用Amazon FSx for Lustre将数据分发到实例中来加速模型训练，成功训练并部署了EXAONE，并通过消除单独的基础设施管理团队，将成本降低了大约35%。

在数据清洗方面，企业面临着繁重的数据清洗加工任务。而Amazon EMR Serverless和Amazon Glue可以帮助企业轻松完成数据清理、去重、乃至分词的操作。

Amazon EMR serverless采用无服务器架构，帮助企业运行任何规模的分析工作负载，自动扩展功能可在几秒钟内调整资源大小；Amazon Glue是一个简单、可扩展的无服务器数据集成服务，能够更快地集成数据，轻松快速地完成微调或预训练模型的数据准备工作。

在数据治理方面，企业难以在多个账户和区域中查找数据，也缺乏有效的数据治理工具。

Amazon DataZone通过可信的自治，让企业能够跨组织边界大规模地发现、共享和管理数据，能够为多源多模态数据进行有效编目和治理，还提供简单易用的统一数据管理平台和工具。

二、将现有数据与模型快速结合，让企业专有数据释放独特价值

生成式AI基础模型自身存在一些局限性，比如无法及时拥有企业专有数据、缺乏时效性、生成幻觉（错误信息）、存在用户敏感数据的隐私合规风险等。因此企业数据基座的第二项关键能力是通过技术手段加速数据与模型的结合。

用户期待生成式AI给出高质量答案，但简单的对话背后蕴藏着复杂的提示工程。通过提示工程获取模型介绍，从企业数据库获取用户背景信息，从RAG获取上下文，最后才是用户的问题及问题相关的提示词。

RAG技术被公认是实现数据与模型结合的主要途径之一。企业可以将自身的知识库、数据库等与生成式AI模型相结合，在生成过程中实时检索和利用企业内部的相关数据，从而提高生成结果的准确性、一致性和信息量。

RAG场景的核心组件是向量存储。RAG通过将数据转换为向量并存储到向量数据库中，从而将语义的关联性转化为向量间的数学距离问题，以实现内容的关联性计算。

在搜索、评论、购物车、产品推荐等交互框架中，现代应用程序需精准理解用户需求并正确关联产品或内容。这些框架又依赖于功能各异的数据库，使数据库成为实施RAG技术的理想平台。

亚马逊云科技在其主流的数据服务中支持向量搜索，通过将数据和向量存储在一起来提升数据查询性能，以便企业轻松利用RAG技术将专有数据提供给基础模型。

亚马逊云科技还为图数据库Amazon Neptune推出了分析数据库引擎，以结合图数据库与基础模型的优势，快速从图形数据中获取洞察，并实现更快的向量搜索。

三、有效处理生成式AI应用的新数据，降低模型频繁调用成本

生成式AI应用中基础模型的频繁调用往往会带来成本的增加和响应的延迟。因此提升模型调用效率成为企业数据基座的第三项关键能力。

企业需要高效管理飞速发展的生成式AI应用产生的新数据，可通过基础模型结果缓存来提升性能，降低成本。

Amazon Memory DB内存数据库通过缓存之前问答生成的新数据，实现对类似问题的快速响应和准确回答，同时有效降低基础模型的调用频率。这是最快的亚马逊云科技向量搜索体验之一，能够存储数百万个向量，只需几毫秒的响应时间，能够以99%的召回率实现每秒百万次查询性。

此外，生成式AI应用需要快速占领市场。亚马逊云科技通过提供无服务器数据库服务和Amazon OpenSearch Serverless用于向量搜索，为企业减少运维负担和成本，消除性能瓶颈。

Amazon Music应用程序通过分析用户和歌曲的特征，并将它们转换成向量以提高推荐精准度，已通过Amazon OpenSearch将1亿首歌曲编码成向量并进行索引，来为全球用户提供实时音乐推荐。该应用程序目前在Amazon OpenSearch中管理着10.5亿个向量，并能够处理每秒高达7100次的查询峰值，有效支撑其推荐系统。

亚马逊打造的Rufus是一款以生成式AI为核心的专业购物助手，能解答客户的购物疑问、提供产品比较，并根据对话情境进行推荐。它将为亚马逊商城超过2亿的Prime会员提供服务，在提升客户体验的同时也会产生大量新的数据。

四、助攻生成式AI与电商业务深度整合，帮企业客服人效提高70%

国内领先的电商独立站SaaS平台店匠科技（Shoplazza）已经累计服务超过36万个跨境电商客户。据店匠科技首席科学家谢中流博士分享，Shoplazza在生成式AI方面探索了生成式AI营销素材创作、AI建站Copilot、智能客服、智能推荐&搜索四大板块。

想做外贸生意但没有网站的企业可以使用店匠Shoplazza AI建站功能来搭建网站。其AI建站使用了Amazon Bedrock Claude 3模型来实现对话交互，理解客户需求；基于Amazon RDS实现AI建站数据底座；拆解捕捉到的需求元素，然后用这些元素进行快速的自动化网站搭建。

Shoplazza用到Amazon ElastiCache Redis缓存向量数据构建智能AI客服，利用Amazon S3存储海量用户数据与营销素材供模型训练,利用Amazon EMR Flink运行分布式数据任务来实现实时数据清洗处理，利用Amazon OpenSearch存储向量数据来实现极速的商品搜索，通过Amazon IAM完善用户权限管理，节省了40%的客服成本，提升了30%的素材制作效率，增加20%搜索推荐收入。

他期待与亚马逊云科技未来在持续优化BetaCreator等AI作图业务场景、应用大语言模型优化智能客服和其他问答场景、实现生成式AI技术和电商业务的更深度整合等方向进一步合作，以实现电商行业更好的用户体验、更高的产出效率、更低的生产成本。

北京AI初创公司灵奥科技的主要使命是为企业构建AI Agent，推出了大模型中间件Vanus Connect、Vanus AI和基于Vanus AI专为Shopify店铺构建的销售类AI Agent购物助手VanChat，已累计服务全球逾3万个用户。

灵奥科技CEO厉启鹏谈道，大模型企业落地的核心挑战就是解决好数据问题，涉及模型对业务数据的理解和学习、数据隐私和安全合规、数据偏见与公平性，大模型、向量数据库和大模型中间件是企业构建AI应用的必备组件。

在帮助国内某ERP企业客服人员构建AI Copilot时，Vanus AI基于Amazon S3、数据库等云服务，帮助用户从文档、数据库、SaaS软件等多个数据源中实时抽取数据，构建统一的企业知识库；借助Amazon Bedrock等服务，为企业客服人员构建AI Copilot，基于全域业务数据实时推理，将客服人员回复问题的时间从分钟级降到秒级，将客服团队的人效提高70%。

谈及灵奥科技与亚马逊云科技未来合作规划，厉启鹏希望在数据领域使用向量数据库用于帮助企业构建知识库，使用Amazon DocumentDB用于Agent元数据的存储以及对话的全文检索，使用Zero ETL用于用户数据的预处理；在大模型领域继续深化大语言模型Claude 3的使用，并在Agent产品推荐方面试用Embedding模型。

结语：形成“数据-模型-应用”的生成式AI数据飞轮

数据是企业在生成式AI时代取得成功的关键。亚马逊云科技正在帮助各行业各种规模的企业打造强健的数据基座，在确保用户业务和数据安全的前提下，将数据的独特价值赋予基础模型和生成式AI应用，加速企业业务增长。

亚马逊云科技希望每一个企业在生成式AI时代借助亚马逊云科技的服务打造坚实的数据基础，以便高效安全地将海量的多模态数据和各种基础模型相结合，创建出一系列具有独特价值的生成式AI应用，进而产生更多的数据，新数据又会继续提升模型的准确度，创造更好的用户体验，从而形成正向的生成式AI数据飞轮。