花了一周时间,总算补完了re:Invent 2024全球大会“云春晚”的主要节目。
干货太多,让我有点不知道从哪儿讲起了。挑个重点吧,讲讲亚马逊云科技的大模型版图。
先上一张图,一图看懂“亚麻云”的大模型布局。
针对上图,我们再画个重点,把最最重磅的产品列列↓
▋特别重磅❶:
Amazon Nova,这是亚麻云自研的基础模型,一出场就很炸裂,从评测结果看,具备年度最佳表现,吊打同级别的GPT、Gemimi、Claude等模型。
▋特别重磅❷:
Amazon Trainium3芯片,用于大模型训练的算力怪兽,这颗芯片采用3nm工艺,将于2025年正式发布,是现有Trainium 2芯片性能的两倍,能效提高40%。
此外还有EC2 Trn2实例,性价比高30~40%,单节点就能提供20.8 PFLOPS算力@FP8,以及基于亚麻云专有网络互联技术NeuronLink来构建的算力巨无霸UltraServer。
▋特别重磅❸:
Amazon Bedrock模型服务平台重大更新,提供上百个业界顶级大模型,满足客户所有场景需求(包括著名的Claude 3.5、Llama 3、poolside、Stable Diffusion3.5和Luma AI,以及新鲜出炉的Amazon Nova)。
Bedrock提供全托管的一站式服务:模型选择、推理成本优化、模型定制、安全审核、Agents构建和编排。重点功能“模型蒸馏”,请记住,后面要考。
▋特别重磅❹:
Amazon SageMaker全家桶重大升级,整合了A云几乎所有的数据集成、清洗、分析的工具和服务,并在智能湖仓(LakeHouse)之上,增加了Zero-ETL的数据编织能力。
在这个全家桶里,一份数据集可以用于多个场景,不同的数据集也可以跨源服务于某个场景(甚至不需要做ETL/ELT),也不需要在各种服务里反复切换。
▋特别重磅❺:
Amazon QAI智能助手面向开发场景和商业场景都做了重大更新。
最激动人心的是,它可以自动化完成诸如「VM工作负载迁移到云原生架构、.net应用迁移到Linux应用、IBM主机应用迁移」这些当下既刚需又Boring的工作。
好了,接下来,我来逐层拆解一下这幅大模型版图。
01、基础设施层
先看最下面的基础设施层,搞大模型离不开存算网的配套,而亚麻云则是把云上存算网的能力,直接拉满了。
基础设施层:计 算
首先,算力是巨头们争夺的焦点,Amazon在计算芯片上持续发力,而且是“四箭齐发”,布局相当全面。
面向训练场景的Trainium系列、面向推理场景的Inferentia系列、面向通用计算场景的Graviton系列,以及面向DPU场景用于云基础设施卸载和加速的Nitro芯片。
单个芯片性能“再炸裂”也只是纸面算力,只有成系统、易维护、可交付,而且实际扛活的时候不打折扣、不撂挑子,才算是把纸面算力真正兑现。
亚麻云的牛掰之处在于,将这些自研芯片的算力/能力,用近乎无损的云化方式以服务来交付,自动化、免维护、按需扩展、高性价比…
只有这样,算力的“原子弹”,才能变成人人会用、好用的“加特林”。
对于广大AI用户来讲,这个“加特林”,就是那些立等可取的训练实例、推理实例…,信手拈来,快速投入模型训推任务即可。
比如新鲜出炉的EC2 Trn2实例,集成了16个Trainium2芯片,基于亚麻云独创的NeuronLink技术互联(对比下NVLink),单节点提供20.8 PLOPS算力@FP8,比GPU实例性价比高出30%-40%。
当然,还有更吊炸天的UltraServers,组合更多的Trainium2芯片,变身超级服务器,抱团扛更大的活,比如万亿参数级别的大模型。
UltraServer的互联还是采用A家自有的NeuronLink,带宽达到2TB/s,延迟仅为1μs。
UltraServers可以进一步组合,形成更大的超级集群,让成千上万的Trainium2协同工作,超强算力、海量HBM内存、无阻塞互联。
不止如此,在大会现场,亚麻云还投下了一颗重磅算力炸弹,宣布将在2025年发布第三代训练专用芯片:Amazon Trainium3。
Trainium3是Amazon首款3nm芯片,性能是Trainium2的两倍,能效提升40%。(预计是第一代的8倍)
Amazon为啥像那些半导体公司一样,狂卷算力芯片?
只因大模型、GenAI的计算负载,与传统云工作负载有很大不同,经典云计算的杀手锏是Scale out,你可以组合一堆“老破小”服务器,通过横向扩展的方式来干大活。
但是,大模型越来越卷的参数量,对算力带来了前所未有的挑战。
这些逆天的巨量算力需求,并不能完全通过“Scale out大法”来解决,对单个计算单元的能力要求非常高,既需要Scale out,也需要Scale up。
上面那些发布,展示了亚麻云对未来的预判和决心:①构建单体能力更强的计算节点(Scale up);②构建规模更大、效率更高的计算集群(Scale up)。
所以,才有了不断迭代的Trainium系列芯片、计算实例,和基于NeuronLink持续扩展的超级服务器(UltraServer)、超级集群(UltraCluster)。
这种“Scale out+up”架构能打吗,来看下面这个战例↓
Claude模型的母公司Anthropic,正在联合亚麻云构建Rainier项目:该项目基于UltraServer,组成包含数十万Trainium2芯片的超级集群,提供超过当前5倍的算力(EP级),用于训练下一代Claude模型。
还不止如此,不要忘了,除了Trainium系列,亚麻云还有算力芯片全家桶:Inferentia系列、Graviton系列,以及Nitro System。
“全家”上阵,各施所长,各显其能,那才叫一个真能打。
连Apple这样的大佬,都跑来为之捧场,介绍他们基于Graviton3、Inferentia2和Trainium2来构建Apple Intelligence的实践经验。
当然,亚麻云也有这足够的号召力和生态能力。
除了基于自研芯片提供大模型的训推服务,还最新发布了基于N记Blackwell芯片P6系列实例,该实例比当前GPU快2.5倍,又是一个大提升。
跑GPU最爽的地方在哪儿?当然是亚麻云。
基础设施层:存 储
Amazon S3,是亚麻云2006上线以来的第一款服务,这一次,针对大模型对数据的海量需求,S3又迎来了两项重磅更新。
第一项是Amazon S3 Tables,这是全新的存储桶(buckets)格式,相当于完全的Apache Iceberg数据湖服务,用于大型分析数据集。
这种“新桶”,可以大幅提高Iceberg表的性能和扩展性,相比以前,现在每个表都是一级资源,查询性能提升3倍,事务处理能力提升10倍。并提供表级安全性和更优的成本。
如何利用S3 Tables快速查询分析并与Amazon云上分析服务联动
第二项更新是Amazon S3 Metadata元数据服务,这项服务可以帮助用户从存储在S3中的PB甚至EB级数据中,大海捞针,迅速找到需要的数据。
S3 Metadata可以自动从对象中捕获元数据,并近实时地存储到S3 Tables中,便于后续查询,并能在对象发生变化时,分钟级更新对应元数据。
无论是应对海量数据的分析查询需求,还是为大模型训练准备和供应优质数据饲料,S3的这两项更新,都非常应景。
基础设施层:网 络
网络我们不多说,但AI时代网络的重要性不容小觑:更大带宽、更低延迟、更高可靠性。
亚麻云怎么做的呢?节点内部,他们有NeuronLink高速互联,而节点之间,他们推出了“10p10u网络”,也就是第二代UltraCluster网络架构。
“10p10u”支持20000+卡集群规模,网络容量超过10PB,延迟低于10μs。
10p10u网络可以支撑Trainium2 UltraServer之间的互联需求,每台超级服务器都需要接近13TB的网络带宽。
为了达到这样的目标,Amazon集结了一系列的黑科技,包括Nitro万卡的端侧网络加速和保序、定制的EFA网络接口、专用的光缆中继连接器、Firefly光纤插头、SIDR管理协议等等。
Amazon Nitro网卡演进史
当然对于智算网络来讲,光拼带宽和时延还不够,还需要可靠性、安全性、可管理性、性价比等等,以及如何落地到场景,为Bedrock、Amazon Q的开发者提供网络服务…
Amazon给出了一系列的方案,篇幅有限我不展开了,大家看图吧。
02、数据层
无论是传统的分析场景、ML场景,还是如今的大模型训调推场景,数据和数据质量重要性,不言而喻。
但是,从各种异构的数据源收集数据、对海量不同格式数据进行清洗、快速精准查找有价值的数据…,历来都是大难题。
这次,亚麻云给出了“终极解决方案”。
数据层:Amazon SageMaker
Amazon SageMaker重装上阵。
新一代的SageMaker,统一了数据、分析和AI工作流,针对大模型时代客户面临的数据分析、模型训练、资源成本等关键难题,提供一站式的工具和服务。
比如,基于SageMaker Unified Studio,用户可以在统一入口下,使用Amazon所有的数据和AI服务(流处理、数据处理、SQL分析、模型开发、GenAI应用开发、BI、搜索分析)。
如此,数据不需要搬来搬去,工具和服务也不需要来回切换,数据一统、服务一统、工作流一统,效率大大提升。
新SageMaker还提供了面向应用程序的Zero-ETL能力(就是这两年大火的数据编织DataFabirc),不需要构建和管理数据管道,不需要数据迁移,原地就可以即席分析第三方跨源数据。
同时,Amazon再次表现出对Iceberg的“偏爱”,发布了SageMaker Lakehouse。
这是一套兼容Apache Iceberg的数据湖服务,针对所有类型数据源提供简单统一的数据接入与访问控制,让数据集成更加简单,为大模型提供优质充足“饲料”更加容易。
03、模型层
模型层的更加激动人心,一是Amazon的自有模型,二是全托管模型服务平台。
模型层:自有基础模型Nova
Amazon自己的预训练模型震撼出炉,一发就是个王炸组合↓
Amazon Nova基础模型共包括四大模型,从小到大:用于简单任务的超高性价比文字处理Micro模型;低成本的Lite多模态模型;兼具准确性、速度和成本的Pro多模态模型;用于复杂的推理任务同时也可进行蒸馏定制的Premier多模态模型。
功能方面,Nova模型支持微调(Fine-tuning),蒸馏(Distillation)训练更小的模型。
同时,Nova模型与Bedrock知识库深度集成,可用于RAG,以根据自有数据生成响应。
性能层面,Amazon Nova模型与同类模型相比,Nova在所有基准测试中都是相等或更好,极具竞争力。(对比GPT、Gemini、Claude3.5)
除了这四个基础模型,还发布了图像生成模型Amazon Nova Canvas、视频生成模型Amazon Nova Reel。
同样,在功能和性能层面,Amazon后发制人,Canvas跟业界顶流产品相比,表现更优(分别对比DALL·E 3和SD 3.5 Large)。
Amazon还有进一步动作,将在2025年提供Speech-to-Speech(语音到语音)和Any-to-Any(多模态到多模态)模型。
模型层:Bedrock全托管模型服务
其实,在过去的一年,Amazon已经反复给大家秀过Bedrock这个平台的实力了。
这是一个全托管的模型服务平台,是构建和拓展大模型应用的最简单方式,提供模型选择、成本优化、模型定制、安全审核、Agents构建和编排等一站式服务。
在Bedrock上,你可以选择业界最领先的开源和商业模型,无需关注基础设施的部署和管理,包括来自全球9家领先AI公司的高性能基础模型↓
比如著名的商业模型Claude 3.5、著名开源模型Llama 3、开发者最爱模型poolside、著名图像生成模型Stable Diffusion3.5、黑马级视频生成模型Luma AI等等。
同时,通过大模型Marketplace,额外提供100多款通用和行业模型,按需选择。
选择合适的基础模型只是第一步,Bedrock还提供一系列的模型优化和定制手段,相比于传统的Fine-Tuning手段,这次亚麻云发布了模型蒸馏功能。
蒸馏,顾名思义,把“水分”蒸出去,在不影响性能的前提下,缩小模型体积(参数量),最终获得一个更有性价比、更低推理延迟的定制模型。
此外,Bedrock还提供了提示词缓存、智能提示词路由等功能,进一步进行推理优化、降本提速。
前者可以让特定模型效率提升85%、成本降低90%,后者在无损质量、不影响准确性的情况下,让推理成本再降低30%。
这么说吧,亚麻云处心积虑的琢磨着如何帮助客户省钱,过去卖云是这样,现在搞大模型也是这样。
模型定制和优化好了,下一步需要构建具体的大模型应用,Bedrock又拿出了几项法宝,分别是↓
1、Amazon Bedrock的知识库:让用户通过自动化的RAG工作流程,更好地利用私有数据。
2、Amazon Bedrock Guardrails:为大模型的生成内容提供安全保护,可阻止高达85%的有害内容(包括多模态有害内容,如图像数据),并支持自动推理检查,防止因幻觉产生的事实性错误。
3、多Agents协作:构建、部署和编排多个Agents,协同处理复杂的多步骤任务。
04、应用层
到了这一层,亚麻云拿出了自己独门的大模型应用,Amazon Q,这是一个强大的生成式人工智能助手,也是强大的AI生产力工具。
目前主要有两大应用领域↓
应用层:面向研发场景的Amazon Q
Amazon Q Developer专门面向开发者,端到端满足整个开发生命周期的需求,并与GitLab深度集成。
老程序旧软件的维护、移植、修补等无聊工作,开发者们苦之久矣。如今,在GitLab上可以让Q Developer代劳↓
比如Java应用程序迁移,或者.net应用迁移到Linuxnew。
企业要做云转型,将大量的VM工作负载迁移为云原生架构new,或者将IBM等大型主机应用程序迁移new等等,这些都可以找“小Q”。
本次,Q Developer还全新推出3个Agents,分别司职生成单元测试、文档和代码审查。
这个全能的开发小助手,就是要把开发者从这些非常重要但无差异的工作上解放出来,让他们可以更专注于创造性任务。
而且,亚麻云产品线太丰富了,产品和服务之间可以做各种联动。
比如Q Developer与Bedrock联动,即使用户一句Python语言也不会,只需用讲出业务需求,Q Developer就会指导他一步步在Bedrock上构建出机器学习模型。
应用层:面向商业场景的Amazon Q
Amazon Q Business作为企业级业务小能手,可以连接不同的业务系统、企业数据源,然后用对话的方式进行搜索。这种连接和检索,在安全和隐私的条件约束下,可以跨越各种数据库和企业数据。
比如,利用Q Business提供强大的索引能力(Amazon Q index),可以从业界主流办公、协作软件源索引过去一年的数据,并持续更新。
怎么样,你想到了啵,有这个神操作,企业BI的能力可以大大加强了。
Amazon也是这么干的,让Q Business和QuickSight组成一对好CP,商业智能如虎添翼。
接下来,再通过全新的Q Business API,独立软件开发商可在自有软件中集成Amazon Q index,有了这种超强的跨数据源能力,应用程序可以变得更强大、更个性化。
最后,Amazon还发布Q Business Automate功能,用于创建跨团队和应用程序的自动任务,让AI小助手天天挥着鞭子监督和管理一堆Agents干货,业务系统的自动化能力可以获得质的飞跃。
至此,从底到上,我们完整拆解了亚马逊云科技的大模型版图。
还是那句话,你大爷永远是你大爷。这才是搞大模型的正确姿势!
因为篇幅实在有限,re:Invent 2024春晚的更多精彩节目无法一一道来,不过不用急,马上就会有“返场”了↓
敬请关注re:Invent中国行:12.20成都;12.25武汉、青岛;1.10广州;1.17天津…
热门跟贴