如何开启生成式 AI 之旅？一切得从数据说起|ai|amazon|应用程序|插件功能|数据源|生成式

18年前，我们发布了首款产品 —— 对象存储服务 Amazon Simple Storage Service (Amazon S3)。当时，我们并没有想到它会改变全球企业管理数据的方式。快进到2024年，如今每家企业的业务都离不开数据。

为此，我们花费大量时间讨论了数据如何助力企业进行数字化转型，深入探讨了企业的私有数据在创建差异化生成式 AI 应用方面的作用，以及生成式 AI 如何为企业业务开启全新、意想不到的大门。

Amazon S3 可存储超过350万亿个对象，平均每秒超过1亿个请求，它可能是您生成式 AI 之旅的起点。但无论您拥有多少数据或将数据存储在何处，最重要的是数据质量。高质量的数据可提高模型响应的准确性和可靠性。最近一项针对首席数据官（CDO）的调查显示，近一半（46%）的 CDO 认为数据质量是实施生成式 AI 的最大挑战之一。

那么今天，我们一起来看下，亚马逊云科技的存储服务（从数据湖到高性能存储）如何改变数据策略，成为您生成式 AI 项目的起点。

面向生成式 AI 的数据

受消费者活动、商业分析、物联网传感器、呼叫中心记录、地理空间数据、媒体内容等驱动因素影响，数据正以难以置信的速度飞速增长。这种数据增长推动了生成式 AI 的飞轮。

而基础模型（FM）往往在大规模数据集上进行训练。这些数据集通常来自一些开放的数据存储库，包含从互联网获取的网页 PB 数据。组织则使用较小的私有数据集来进一步定制 FM 响应。这些定制模型反过来将推动更多生成式 AI 应用程序，通过客户交互为数据飞轮创造更多数据。

无论您在哪个行业、使用哪些用例、在什么地理位置，都可以从今天起实施以下三个数据计划。

首先，使用现有数据为您的 AI 系统增加差异化。

大多数组织拥有大量数据。您可以使用这些数据定制和个性化基础模型，使其符合您的特定需求。一些个性化技术需要结构化数据，而有些则不需要，还有一些需要标注数据或原始数据。Amazon Bedrock 和 Amazon SageMaker 可为您提供多种解决方案，可以微调或预训练现有的多个基础模型。您还可以选择部署 Amazon Q（您的业务专家），并将其指向它开箱即支持的43个数据源中的一个或多个。

但有可能您并不想为了提高 AI 使用能力而创建新的数据基础设施，只希望生成式 AI 所需的组织数据就像现有应用程序一样。

其次，让现有的数据架构和数据通道与生成式 AI 协同工作，并继续遵循现有的数据访问、合规性和管理规则。

我们的客户已在亚马逊云科技上部署了超过100万个数据湖。您的数据湖、Amazon S3 和现有数据库都是构建生成式 AI 应用程序的绝佳起点。

为支持检索增强生成（RAG），我们在多个数据库系统中添加了向量存储和检索支持。您也可以使用 Amazon OpenSearch、Amazon Aurora 的 pgvector for PostgreSQL 和 Amazon Relational Database Service (Amazon RDS) for PostgreSQL。我们最近还宣布了 Amazon MemoryDB、Amazon Neptune 和 Amazon DocumentDB（与 MongoDB 兼容）支持 Redis 向量存储和检索。

您还可以重复使用或扩展当前已部署的数据管道。许多人使用 Amazon Managed Streaming for Apache Kafka (Amazon MSK)、Amazon Managed Service for Apache Flink 和 Amazon Kinesis 来进行传统机器学习（ML）和 AI 的实时数据准备。您可以扩展这些工作流，通过更新向量数据库捕获数据更改并近乎实时地将其提供给大语言模型（LLM）、通过 Amazon MSK 的原生流摄取将这些更改提供给 Amazon OpenSearch Service 的知识库，或者利用 Amazon S3 中集成的数据流式传输通过 Amazon Kinesis Data Firehose 更新微调数据集。

在谈到大语言模型训练时，速度很重要。您的数据管道必须能够为训练集群中的许多节点提供数据。为满足性能要求，将数据湖部署在 Amazon S3 上的客户可以使用 Amazon S3 Express One Zone 这样的对象存储类，或者使用 Amazon FSx for Lustre 等文件存储服务。FSx for Lustre 提供了深度集成，并使您能够通过熟悉的高性能文件界面加速对象数据处理。

好消息是，如果您的数据基础设施是使用亚马逊云科技的服务构建的，那么您已经完成了将数据扩展到生成式 AI 的大部分工作。

第三，成为自己最好的审计员。

每个数据组织都需要为生成式 AI 做好法规、合规性和内容审核的准备。您应该知道在培训和定制中使用了哪些数据集，以及模型是如何做出决策的。在变化如此迅速的生成式 AI 领域，您需要预见未来，立即采取行动，并以一种完全自动化的方式进行操作，以便在扩展 AI 系统时继续执行。

使用不同的亚马逊云科技服务（如 Amazon CloudTrail、Amazon DataZone、Amazon CloudWatch 和 OpenSearch）来管理和监控数据使用情况。这可以很容易地扩展到您的 AI 系统。如果您使用亚马逊云科技托管的生成式 AI 服务，您就内置了数据透明度的功能。我们在推出生成式 AI 功能时就支持了 CloudTrail，因为我们知道为企业客户的 AI 系统留下审计踪迹至关重要。当您在 Amazon Q 中创建数据源时，它都会记录在 CloudTrail 中。您还可以使用 CloudTrail 事件列出由 Amazon CodeWhisperer 发出的 API 调用。Amazon Bedrock 拥有超过80个 CloudTrail 事件，您可以使用这些事件来审计您如何使用基础模型。

在去年 re:Invent 大会上，我们还推出了 Amazon Bedrock 的 Guardrails 功能。它可以帮助避免一些指定的话题，Amazon Bedrock 只会为用户提供经过批准的响应。

新推出的存储和数据功能

Amazon S3 Connector for PyTorch 现在支持直接将 PyTorch Lightning 模型检查点保存到 Amazon S3。模型检查点通常需要暂停训练作业，因此直接保存检查点所需的时间会直接影响端到端模型训练时间。PyTorch Lightning 是一个开源框架，为使用 PyTorch 进行训练和检查点提供了高级界面。

Amazon S3 on Outposts 进行身份验证缓存 —— 通过在 Outposts 机架上本地安全缓存 Amazon S3 的身份验证和授权数据，该新功能消除了每个请求到父亚马逊云科技区域的往返时间，从而消除了网络往返引入的延迟变化。

适用于 Bottlerocket 的 Amazon S3 Container Storage Interface (CSI) 驱动程序的挂载点现已推出 —— Bottlerocket 是一个免费的开源 Linux 操作系统，专为托管容器而设计。基于 Amazon S3 的挂载点，CSI 驱动程序将一个 S3 存储桶呈现为一个可由 Amazon Elastic Kubernetes Service (Amazon EKS) 和自管理 Kubernetes 集群中的容器访问的卷。它允许应用程序通过文件系统接口访问 S3 对象，实现高聚合吞吐量，而无需更改任何应用程序代码。

Amazon Elastic File System (Amazon EFS) 的每个文件系统吞吐量提高了2倍 —— 我们已将弹性吞吐量限制提高到读操作 20 GB/s 和写操作 5 GB/s。这意味着您现在可以将 EFS 用于更多吞吐量密集型工作负载，例如机器学习、基因组学和数据分析应用程序。

Amazon S3 Express One Zone 存储类与 Amazon SageMaker 集成 —— 它允许您通过更快的训练数据、检查点和模型输出加载时间来加速 SageMaker 模型训练。

Amazon FSx for NetApp ONTAP 将每个文件系统的最大吞吐量容量提高了2倍（从 36 GB/s 增加到 72 GB/s），让您可以将 ONTAP 的数据管理功能用于更广泛的性能密集型工作负载。

让我们共同见证亚马逊的一小步

云计算的一大步