一直以来,亚马逊云科技都是云计算行业的风向标,也是遥遥领先的引领者,每年的re:Invent大会更是引起全行业的关注。就在不久前,re:Invent2023顺利召开,会上不仅秉承了亚马逊云科技“客户第一”的理念,同时也发布了多款IaaS解决方案念,在性能、成本、安全方面进一步迭代。下面我们就来一起看看本次大会的众多亮点。
1 计算产品
1.1Graviton4产品发布
每次re:Invent大会,最重磅信息的莫过于自研芯片。Graviton系列芯片从2018诞生以来,已经上线150种实例,云上200万片,交付给5万用户使用,并且得到Top 100大客户认可,采用ARM计算产品来降本增效;比如SAP:是Graviton大客户;
与 Graviton3 相比,96 个 Neoverse V2 内核、每个内核 2 MB 二级缓存和 12 个 DDR5-5600 通道共同作用,使 Graviton4 的数据库处理速度提高了 40%,Web 应用程序处理速度提高了 30%,大型 Java 应用程序处理速度提高了 45%。
本次大会特意强调DB、Java场景,之前我们评测过,确实是ARM重点场景,相对于Graviton在其他强项场景,这两个场景性能不够突出,这也是本次发布会额外强调的原因。
几代ARM产品主要参数如下
基于ARM芯片的计算产品EC2R8g,单CPU支持96core,整机192core
Graviton支撑了大量云产品,包括DB、大数据、容器、FaaS
1.2Graviton4芯片架构
新的 Graviton4 内部有 96 个内核,基于 Arm 的 "Demeter" Neoverse V2 内核(基于 Armv9 架构),与拥有 64 个内核的 Graviton3 相比,内核数量增加了 50%。本次采用7个die的设计,12个DDR5 controller,分布在4个die上;2个PCIe5 die和CCIX NUMA互联die
超出预期的NUMA互连架构,ARM架构下CCIX实现并不是特别完善,时延也很大,但这一代Graviton竟然跨越了这一步。
为什么ARM服务器架构从过去的独立3 Socket架构,转向NUMA设计?
推测与定位分不开:大型数据库、SAP Hanna,以及Limitless Arura 数据库;当然这样对CCIX互连的时延要求很高期待有卓越的表现;
1.3面向应用性能的自研芯片
关于性能设计,第一张图,是传统Benchmark,推测应该是SpecInt2017,这种程序为了标准化,易安装,一般程序比较小,循环执行,很难反映真实业务性能。Graviton CPU设计产品采用“Real workload”基准,进行优化CPU设计;
MySQL基准测试显示 R8g 与 R7g 相比有 40% 的优势,在8vCPU 上测试 Groovy/Grails 应用程序时也有45%以上收益。
据统计,目前由Amazon Graviton支持的Amazon EC2实例种类达150多个,已经构建的Amazon Graviton处理器数量超过200万个,并拥有超过5万客户,包括Datadog、DirecTV、Discovery、Formula 1 (F1)、NextRoll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe以及Zendesk等。例如SAP,在使用Amazon Graviton服务之后,成本降低了35%,且分析速度更快,同时减少了45%的碳排放量。
本次发布会,都在对比上一代ARM,一直没有横向对比x86的数据,大家可以基于Graviton3的性能来推测。
2021年发布Graviton3的时候,性能比Graviton2的提升幅度,也可以作为G2-3的参考
1.4性能分析deep dive
Graviton3采用ARM V1架构,而Graviton4基于下一代V2架构,重点升级
L2 cache:1->2M
翻了ARM产品的V2架构,主要提升的性能参数如下
V2架构在微处理器的前端、后端均进行了优化提升
ARM的物理核有天然优势,需要积累的是服务器端高性能负载下的算法,比如指令预测、乱序执行、随机访问数据场景下的Cache预取算法。V2相对于V1来说,SIR提升带来的收益13%,SLC miss降低10%,看来内存的访问消耗了大量性能。Mop fetch和HW Prefetch性能提升最明显;
1.4.1.1Branch Predict/Fetch/ICache1.5 X86架构的EC2,仍然创新不断
X86发布两款产品:
首先是M7i-Intel SPR
CPU 96vcpu,两路192vCPU,集成了AI加速器
高达 3.2 GHz 第 4 代英特尔至强可扩展处理器(Sapphire Rapids 8488C)
新的高级矩阵扩展(AMX)可加速矩阵乘法运算
最新的 DDR5 内存,与 DDR4 相比,带宽更大
M7i-Flex架构:这一代产品核数是上一代的1.5倍,但是总IO性能相同,因此Flex作出让利
最大32vcpu,IO为12.5G网络/10GEBS
性价比提升19%,价格M6i降低5%,CPU性能提高15%
M7i产品规格
M7i-Flex最大32core,IO可以共享,只承诺最高12.5G、10G
性价比优势;
SAP HANA、Oracle 或 SQL Server大型内存型数据库场景,需要超大内存的实例,推出了U7i产品。
U7i 最多支持 896 个 vCPU,是 AWS Cloud 中数量最多的 vCPU。它们提供高达 100Gbps 的 Elastic Block Storage (EBS),是现有 U-1 实例 EBS 带宽的 2.5 倍以上,使客户能够更快地将数据加载到内存中并提高备份速度。U7i 实例支持 EBS io2 Block Express 卷,可在 Amazon EC2 上提供最佳 EBS 性能。U7i 实例可提供高达 100Gbps 的网络带宽并支持 ENA Express。U7i 实例非常适合使用任务关键型内存数据库(例如 SAP HANA、Oracle 或 SQL Server)的客户。
第二款是M7a-AMD Genoa产品
与 M6a 实例相比,由第四代 AMD EPYC 处理器提供支持的 Amazon EC2 M7a 实例的性能可提升高达 50%。
主要特点:
睿频3.7 GHz 的第 4 代 AMD EPYC 处理器(AMD EPYC 9R14)Genoa
整机50 Gbps 的网络带宽,40 Gbps 的 Amazon Elastic Block Store(Amazon EBS)带宽
高达 192 个 vCPU 和 768 GiB 内存的实例
SAP 认证实例
支持采用 AMD 安全内存加密(SME)的全天候运行内存加密
支持新的处理器功能,例如 AVX3-512、VNNI 和 bfloat16。
全新解读:上一代Milan最大裸金属规格是192vcpu,这次为什么没进步?
AMD Genoa原本是96core,192ht的能力,为何没有推出384vcpu的产品?
答案是他们做了SMT off处理,直接给用户暴露物理核,大大缓解之前Milan时代内存不足、HT线性度差的问题;同时,M7a追求单vCPU带宽,以保证应用性能和时延最佳。
2 存储产品
存储产品EBS、S3思路是每年演进加大带宽,降低时延
首先,带宽每年提升速度30%左右,今年采用100G网络,50G给VPC,40G给EBS,剩余做管控。随着核密度上升(192->256/384),下一代预计会走向200G网络;
其次,存储时延非常重要,每年有新的加速产品发布给用户
在EBS上,采用EBS io2 express降低十倍时延;
在S3对象存储产品上,采用S3 express one zone降低10倍时延;
2.1EBS
过去从用户角度看产品,今年终于可以从EBS存储服务器角度,看实现架构:
EC2--Nitro--srd--EBS服务器,服务器规模使用Graviton CPU,从经验来看ARM服务器做存储的IO、压缩、校验,能大幅度发挥物理核优势。
EBS io2 express,去年发布会第一次发布,今年有更多产品规格落地
相对于之前的io2,提供了4倍带宽、容量;
相对于io1,10倍低时延,100倍可靠性,高IO吞吐场景下降低成本50%。
Io2 express基于SRD协议,带宽大幅度提升,时延大幅度降低。近年来DCTCP、RDMA协议纷纷用到了数据中心内部,大幅度提高IaaS互连吞吐。
2.2OSS
今年发布了一款新产品,名字有点长,Amazon S3 Express One Zone,为了解决前文讲的,就是一款对象存储的AZ内缓存加速器,其实叫S3 express比较好记。
S3典型时延10-200ms,对于ML、Bigdata、数据分析这些业务来说,计算需要等待数据准备好,计算集群消耗浪费等待时间,如何解决呢?S3 Express应运而生。
下图为方案架构:
下文有几个关键点:
计算服务器EC2与S3 Express同AZ
时延具备10倍速度,前文看到百毫秒级时延浪费大量时间,可以优化10倍Lantency;
推测采用SSD服务器集群,价格预计比HDD组成的S3贵10倍量级。
Amazon S3 Express One Zone 是一种高性能的单区 Amazon S3 存储类,专门用于为对延迟最敏感的应用程序提供一致的、个位数毫秒级的数据访问。S3 Express One Zone 是当今延迟最低的云对象存储类,数据访问速度比 S3 Standard 快 10 倍,请求成本比 S3 Standard 低 50%。应用程序可立即受益于请求完成速度快达一个数量级。S3 Express One Zone 提供与其他 S3 存储类类似的性能弹性。与亚马逊 S3 一样,无需提前规划或配置容量或吞吐量要求。可以根据需要扩大或缩小存储容量,并通过 Amazon S3 API 访问数据。S3 Express One Zone 是第一个 S3 存储类,可以选择单个可用区,并选择将对象存储与计算资源共置,从而提供尽可能高的访问速度。此外,为了进一步提高访问速度并支持每秒数十万次的请求,数据存储在一种新的存储桶类型中:Amazon S3 目录存储桶。无论键名或访问模式如何,每个目录桶都能支持每秒数十万次的事务处理 (TPS)。
3网络技术
3.1Nitro安全方案
机密计算对于政府业务、金融、多方交易非常重要,但是近些年普及速度并不好;Intel 退出SGX芯片安全方案,ARM有Trustzone方案,AMD也有自己的不同方案;对于用户来说,最好有一个统一方案。
Nitro Enclaves做到了这一点,将安全密钥等信息存储在统一的用户域之外的独立DPU空间,避免适配不同CPU而修改程序,这个比较巧妙的方案。可实现跨厂商、跨代兼容;后面还举出巴西银行区块链案例;
3.2物理网络演进
今年通用计算网络与上一代100G平台相同;网络增强达到200G;AI网络单卡达到400Gbps;对于采用ARM CPU的Nitro平台,在AI场景下采用Jumbo实现带宽翻倍,还是比较容易;当然面对AI训练场景,还是需要NVLink这种480GB/s的柜内总线互连。
4总结
随着开源软件越来越多进入企业生产业务,未来云计算不可替代性,需要芯片与软件结合,需要多产品矩阵结合,才能给客户创造差异化价值,提供安全、高性能、低成本的产品和服务。
从十年的产品演进节奏,可以看出亚马逊云坚持的产品战略:
成本控制:
Graviton自研芯片,降低60%功耗,让利给客户(过去定价低20%)
给客户尽可能降价(M7i-flex),同时减少自身成本(6-7代共用100G网络);
性能第一:
AMD 处理器产品,M7a(Genoa)策略:释放物理核算力(提升50%),同时保证内存带宽(DDR5 4800,比上一代提升50%)。
Graviton策略:物理核,大容量Cache,最大内存带宽;同时选择V1,V2系列ARM架构,付出了密度降低一倍的代价(对比N系列),实现性能最优;
存储推出更大带宽,更低时延产品EBS Express,S3 Express
安全至上:
从Nitro加密付出网络加解密硬件开销代价、内存加密付出10%时延开销,仍然给客户提供最安全解决方案。
推出Nitro Enclaves,实现机密计算;
事实证明,亚马逊云科技可以为用户提供丰富的云应用选择,同时这些选择也是业界最先进、最高端的,这不仅提供了差异化的竞争力,也让用户可以第一时间调整自身业务,适应未来数字化的发展。
热门跟贴