在历史长河中,总会诞生一些决定性瞬间。此刻,“顶峰相见”的主角当属生成式AI与数据要素——前者被誉为第四次工业革命的新引擎,而后者则是继劳动力、土地、资本、技术之后新晋的第五大生产要素。
金风玉露一相逢,便胜却人间无数。根据埃森哲最新发布的研究报告,74%的全球商业领袖高管表示,在2024年增加了在数据和生成式AI方面的投入,这一比例较2023年提高24个百分点,预计未来5年将呈现逐年上升的态势。
不难看出,生成式AI与数据要素之间日益形成彼此协同的正反馈效应:高质量数据作为大模型训练与推理的“养料”,驱动生成式AI的能力持续增强;而AI应用又“反哺”业务场景,激活数据潜能,为千行百业数智化转型保驾护航。
然而,虽然“无限风光在险峰”,但“高处不胜寒”的魔咒也从未消除。散点分布的海量数据让很多客户无所适从,不少AI项目因缺乏统一的数据管理平台而搁浅;大模型的部署和运行是系统工程,相关数据的有效调动以及垮部门、垮项目的资源协调都面临巨大挑战;层出不穷的AI工具和应用程序令人眼花缭乱,如何高效切换、重新组合更是颇费思量。
在充满不确定性的新高处,是否可以搭建一个统一的平台,让生成式AI与数据要素实现真正的深度融合,并借助上升阶梯达到前所未有的境界?在近日举办的2024亚马逊云科技re:Invent大会上,针对生成式AI时代客户遭遇的数据分析、模型训练、资源成本等痛点,Amazon SageMaker进一步升级,重磅推出全新的专业工具与服务,成为“所有数据、分析与人工智能需求的中心”。
当年,在大数据应用落地的迷茫期,云计算曾“伸出援手”,以统一数据基础设施化解危机;如今,云计算再次重拳出击,托举生成式AI与数据要素进入平台化跃迁的崭新阶段。
打造数据服务新基座:云计算肩负变革期的重大使命
在IT产业近20年的发展历程中,云计算始终扮演着开路先锋的角色。从IT基础设施的建设方式到资源利用的弹性模式,再到数据服务的平台化演进路径,云计算推动整个产业不断迈上更高台阶。
作为全球云计算领导者,亚马逊云科技自2006年发布存储服务Amazon S3起,就开启了云原生数据服务探索之旅,从基础平台、数据集成、安全合规等维度打造强大的数据新基座。
构建统一的数据平台,是化解数据全生命周期难题的核心基石。 数据平台通常涉及存储、分析、监控、治理等多个环节,亚马逊云科技在对象存储、数据仓库、数据湖、流数据处理、大数据分析等方面都提供了完整的产品线且可无缝集成,使客户能轻松搭建端到端的数据解决方案。
多元的数据引擎和强大的数据集成能力,是适应纷繁场景需求的必备利器。 亚马逊云科技支持多种数据库和数据处理引擎,针对分析型工作负载还提供Athena等大数据分析引擎;同时,其拥有Glue、Data Pipeline等丰富的数据集成工具,帮助客户达成从采集、转换、加载数据到存储、分析服务的全方位目标。
提升数据安全和合规性,是数据基座行稳致远的根本保障。 亚马逊云科技提供多重安全措施和合规认证,如Amazon Key Management Service、CloudHSM等,保护客户的数据隐私、机密性、合规性,让风险降到最低水平。
为生成式AI量身定制统一数据平台:Amazon SageMaker加速进化
当生成式AI与数据要素合流为最强劲的风潮,“云”上的数据基座也必然要经历蜕变。如果说数据水平决定生成式AI的上限,那么具备高度融合特征的数据服务新平台则是生成式AI不断突破天花板的动力源。
其实,早在人工智能尚未“火爆全场”时,亚马逊云科技就已率先入局。2017年,Amazon SageMaker横空出世,以全托管的方式消除基础设施管理的繁文缛节,并将各种工具部署在一个平台上,使客户从繁琐的数据工作中解放出来,借助开箱即用的集成环境就能开展大规模业务创新。
从某种意义上讲,生成式AI的迅猛发展加快了Amazon SageMaker的进化速度。伴随与机器学习相关的工作负载与日俱增,越来越多的客户对准备、处理、分析数据提出更高要求,构建一个将AI与数据融为一体的整合式体验环境变得至关重要。
正是在这样的背景下,亚马逊云科技对Amazon SageMaker的定位进行重大升级,致力于打造“所有数据、分析和人工智能需求的中心”。全新发布的Amazon SageMaker Unified Studio可提供整合的数据和人工智能开发环境,允许客户访问组织中的所有数据,并使用最适合的工具。目前,它整合的服务涵盖Amazon EMR、Amazon Glue、Amazon Redshift、Amazon Bedrock中独立的Studio,以及各种查询编辑器和可视化工具,为构建统一平台奠定了坚实基础。
尤值一提的是,开创业界先河的Amazon SageMaker AI将亚马逊云科技在大数据分析、机器学习、模型开发和生成式AI方面的核心经验融入统一平台,为客户提供从数据准备、参数调优、训练、部署到可观测性的各类工具和服务,显著减少机器学习和数据全生命周期中的重复劳动,树立起生成式AI与数据要素协同演进的新标杆。
生成式AI携手数据要素奔赴未来:跨越前行路上的沟沟坎坎
知名研究机构Gartner发布的报告显示,到2028年,现有的数据基础设施中将至少有50%因与AI生态系统脱节而过时,属于数据数智基建的新时代已经来临。
显而易见,Amazon SageMaker即是AI Infra新生代的典型代表,未来的前途不可限量。但毋庸讳言的是,新型统一平台的进化不可能一蹴而就,还需要跨越落地进程中的沟沟坎坎。
以备受关注的大模型训练场景为例:假设一个大模型训练共需30天,用户要花费大量时间在云服务上搜索可用容量,获得容量后还必须做好资源管理,并将更多数据移动到指定区域,其间面临的挑战不言而喻。Amazon SageMaker HyperPod flexible training plans可帮助客户通过快速创建训练计划,自动获取容量及处理实例中断情况,在全球动态容量环境中顺利完成训练任务。
除了单一大模型训练外,很多客户在生成式AI落地过程中还要解决跨团队、跨项目利用计算资源的难题。Amazon SageMaker HyperPodtask governance基于自动化管理AI任务的优先级,大幅提高计算资源利用率,且降低40%的成本;用户还可自主定义从推理到微调、训练的各种模型任务优先级,真正把“好钢用到刀刃上”。
站在更长远的视角,新型统一平台将优质的AI应用程序和数据资源进行充分整合,是实现跃迁的必由之路。 全新的Amazon SageMaker集成了合作伙伴的应用,并与三方AI开发工具深度整合;面向应用程序的Zero-ETL能辅助客户无需构建数据管道,便可分析存储在第三方SaaS应用程序中的数据;Amazon SageMaker Lakehouse还针对跨不同数据源,提供简单统一的数据接入与访问控制。
海纳百川,有容乃大。兼容并包的Amazon SageMaker堪称生成式AI与数据要素融合创新的典范,为更多数据数智基建的探路者指明了方向。尽管前方的征途不会平坦,但心向往之,行则必至。
点击阅读原文,查看【新品速递】:Amazon SageMaker Model Training
*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。
作者关健,《IT创事记》合伙人、主笔:曾任《电脑商报》常务副社长兼执行总编、《中国计算机报》助理总编,媒体从业时间超过10年。
关健长期关注科技产业动态及趋势,与逾百位高科技公司领导者进行过对话,亦在众多科技会议与论坛中担任嘉宾主持。
热门跟贴