一直以来,亚马逊云科技都是云计算行业的风向标,也是遥遥领先的引领者,每年的re:Invent大会更是引起全行业的关注。就在不久前,re:Invent2023顺利召开,会上不仅秉承了亚马逊云科技“客户第一”的理念,同时也发布了多款IaaS解决方案念,在性能、成本、安全方面进一步迭代。下面我们就来一起看看本次大会的众多亮点。

1 计算产品

1.1Graviton4产品发布

每次re:Invent大会,最重磅信息的莫过于自研芯片。Graviton系列芯片从2018诞生以来,已经上线150种实例,云上200万片,交付给5万用户使用,并且得到Top 100大客户认可,采用ARM计算产品来降本增效;比如SAP:是Graviton大客户;

与 Graviton3 相比,96 个 Neoverse V2 内核、每个内核 2 MB 二级缓存和 12 个 DDR5-5600 通道共同作用,使 Graviton4 的数据库处理速度提高了 40%,Web 应用程序处理速度提高了 30%,大型 Java 应用程序处理速度提高了 45%。

本次大会特意强调DB、Java场景,之前我们评测过,确实是ARM重点场景,相对于Graviton在其他强项场景,这两个场景性能不够突出,这也是本次发布会额外强调的原因。

几代ARM产品主要参数如下

基于ARM芯片的计算产品EC2R8g,单CPU支持96core,整机192core

Graviton支撑了大量云产品,包括DB、大数据、容器、FaaS

1.2Graviton4芯片架构

新的 Graviton4 内部有 96 个内核,基于 Arm 的 "Demeter" Neoverse V2 内核(基于 Armv9 架构),与拥有 64 个内核的 Graviton3 相比,内核数量增加了 50%。本次采用7个die的设计,12个DDR5 controller,分布在4个die上;2个PCIe5 die和CCIX NUMA互联die

超出预期的NUMA互连架构,ARM架构下CCIX实现并不是特别完善,时延也很大,但这一代Graviton竟然跨越了这一步。

为什么ARM服务器架构从过去的独立3 Socket架构,转向NUMA设计?

推测与定位分不开:大型数据库、SAP Hanna,以及Limitless Arura 数据库;当然这样对CCIX互连的时延要求很高期待有卓越的表现;

1.3面向应用性能的自研芯片

关于性能设计,第一张图,是传统Benchmark,推测应该是SpecInt2017,这种程序为了标准化,易安装,一般程序比较小,循环执行,很难反映真实业务性能。Graviton CPU设计产品采用“Real workload”基准,进行优化CPU设计;

MySQL基准测试显示 R8g 与 R7g 相比有 40% 的优势,在8vCPU 上测试 Groovy/Grails 应用程序时也有45%以上收益。

据统计,目前由Amazon Graviton支持的Amazon EC2实例种类达150多个,已经构建的Amazon Graviton处理器数量超过200万个,并拥有超过5万客户,包括Datadog、DirecTV、Discovery、Formula 1 (F1)、NextRoll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe以及Zendesk等。例如SAP,在使用Amazon Graviton服务之后,成本降低了35%,且分析速度更快,同时减少了45%的碳排放量。

本次发布会,都在对比上一代ARM,一直没有横向对比x86的数据,大家可以基于Graviton3的性能来推测。

2021年发布Graviton3的时候,性能比Graviton2的提升幅度,也可以作为G2-3的参考

1.4性能分析deep dive

Graviton3采用ARM V1架构,而Graviton4基于下一代V2架构,重点升级

L2 cache:1->2M

翻了ARM产品的V2架构,主要提升的性能参数如下

V2架构在微处理器的前端、后端均进行了优化提升

ARM的物理核有天然优势,需要积累的是服务器端高性能负载下的算法,比如指令预测、乱序执行、随机访问数据场景下的Cache预取算法。V2相对于V1来说,SIR提升带来的收益13%,SLC miss降低10%,看来内存的访问消耗了大量性能。Mop fetch和HW Prefetch性能提升最明显;

1.4.1.1Branch Predict/Fetch/ICache1.5 X86架构的EC2,仍然创新不断

X86发布两款产品:

首先是M7i-Intel SPR

CPU 96vcpu,两路192vCPU,集成了AI加速器

高达 3.2 GHz 第 4 代英特尔至强可扩展处理器(Sapphire Rapids 8488C)

新的高级矩阵扩展(AMX)可加速矩阵乘法运算

最新的 DDR5 内存,与 DDR4 相比,带宽更大

M7i-Flex架构:这一代产品核数是上一代的1.5倍,但是总IO性能相同,因此Flex作出让利

最大32vcpu,IO为12.5G网络/10GEBS

性价比提升19%,价格M6i降低5%,CPU性能提高15%

M7i产品规格

M7i-Flex最大32core,IO可以共享,只承诺最高12.5G、10G

性价比优势;

SAP HANA、Oracle 或 SQL Server大型内存型数据库场景,需要超大内存的实例,推出了U7i产品。

U7i 最多支持 896 个 vCPU,是 AWS Cloud 中数量最多的 vCPU。它们提供高达 100Gbps 的 Elastic Block Storage (EBS),是现有 U-1 实例 EBS 带宽的 2.5 倍以上,使客户能够更快地将数据加载到内存中并提高备份速度。U7i 实例支持 EBS io2 Block Express 卷,可在 Amazon EC2 上提供最佳 EBS 性能。U7i 实例可提供高达 100Gbps 的网络带宽并支持 ENA Express。U7i 实例非常适合使用任务关键型内存数据库(例如 SAP HANA、Oracle 或 SQL Server)的客户。

第二款是M7a-AMD Genoa产品

与 M6a 实例相比,由第四代 AMD EPYC 处理器提供支持的 Amazon EC2 M7a 实例的性能可提升高达 50%。

主要特点:

睿频3.7 GHz 的第 4 代 AMD EPYC 处理器(AMD EPYC 9R14)Genoa

整机50 Gbps 的网络带宽,40 Gbps 的 Amazon Elastic Block Store(Amazon EBS)带宽

高达 192 个 vCPU 和 768 GiB 内存的实例

SAP 认证实例

支持采用 AMD 安全内存加密(SME)的全天候运行内存加密

支持新的处理器功能,例如 AVX3-512、VNNI 和 bfloat16。

全新解读:上一代Milan最大裸金属规格是192vcpu,这次为什么没进步?

AMD Genoa原本是96core,192ht的能力,为何没有推出384vcpu的产品?

答案是他们做了SMT off处理,直接给用户暴露物理核,大大缓解之前Milan时代内存不足、HT线性度差的问题;同时,M7a追求单vCPU带宽,以保证应用性能和时延最佳。

2 存储产品

存储产品EBS、S3思路是每年演进加大带宽,降低时延

首先,带宽每年提升速度30%左右,今年采用100G网络,50G给VPC,40G给EBS,剩余做管控。随着核密度上升(192->256/384),下一代预计会走向200G网络;

其次,存储时延非常重要,每年有新的加速产品发布给用户

在EBS上,采用EBS io2 express降低十倍时延;

在S3对象存储产品上,采用S3 express one zone降低10倍时延;

2.1EBS

过去从用户角度看产品,今年终于可以从EBS存储服务器角度,看实现架构:

EC2--Nitro--srd--EBS服务器,服务器规模使用Graviton CPU,从经验来看ARM服务器做存储的IO、压缩、校验,能大幅度发挥物理核优势。

EBS io2 express,去年发布会第一次发布,今年有更多产品规格落地

相对于之前的io2,提供了4倍带宽、容量;

相对于io1,10倍低时延,100倍可靠性,高IO吞吐场景下降低成本50%。

Io2 express基于SRD协议,带宽大幅度提升,时延大幅度降低。近年来DCTCP、RDMA协议纷纷用到了数据中心内部,大幅度提高IaaS互连吞吐。

2.2OSS

今年发布了一款新产品,名字有点长,Amazon S3 Express One Zone,为了解决前文讲的,就是一款对象存储的AZ内缓存加速器,其实叫S3 express比较好记。

S3典型时延10-200ms,对于ML、Bigdata、数据分析这些业务来说,计算需要等待数据准备好,计算集群消耗浪费等待时间,如何解决呢?S3 Express应运而生。

下图为方案架构:

下文有几个关键点:

计算服务器EC2与S3 Express同AZ

时延具备10倍速度,前文看到百毫秒级时延浪费大量时间,可以优化10倍Lantency;

推测采用SSD服务器集群,价格预计比HDD组成的S3贵10倍量级。

Amazon S3 Express One Zone 是一种高性能的单区 Amazon S3 存储类,专门用于为对延迟最敏感的应用程序提供一致的、个位数毫秒级的数据访问。S3 Express One Zone 是当今延迟最低的云对象存储类,数据访问速度比 S3 Standard 快 10 倍,请求成本比 S3 Standard 低 50%。应用程序可立即受益于请求完成速度快达一个数量级。S3 Express One Zone 提供与其他 S3 存储类类似的性能弹性。与亚马逊 S3 一样,无需提前规划或配置容量或吞吐量要求。可以根据需要扩大或缩小存储容量,并通过 Amazon S3 API 访问数据。S3 Express One Zone 是第一个 S3 存储类,可以选择单个可用区,并选择将对象存储与计算资源共置,从而提供尽可能高的访问速度。此外,为了进一步提高访问速度并支持每秒数十万次的请求,数据存储在一种新的存储桶类型中:Amazon S3 目录存储桶。无论键名或访问模式如何,每个目录桶都能支持每秒数十万次的事务处理 (TPS)。

3网络技术

3.1Nitro安全方案

机密计算对于政府业务、金融、多方交易非常重要,但是近些年普及速度并不好;Intel 退出SGX芯片安全方案,ARM有Trustzone方案,AMD也有自己的不同方案;对于用户来说,最好有一个统一方案。

Nitro Enclaves做到了这一点,将安全密钥等信息存储在统一的用户域之外的独立DPU空间,避免适配不同CPU而修改程序,这个比较巧妙的方案。可实现跨厂商、跨代兼容;后面还举出巴西银行区块链案例;

3.2物理网络演进

今年通用计算网络与上一代100G平台相同;网络增强达到200G;AI网络单卡达到400Gbps;对于采用ARM CPU的Nitro平台,在AI场景下采用Jumbo实现带宽翻倍,还是比较容易;当然面对AI训练场景,还是需要NVLink这种480GB/s的柜内总线互连。

4总结

随着开源软件越来越多进入企业生产业务,未来云计算不可替代性,需要芯片与软件结合,需要多产品矩阵结合,才能给客户创造差异化价值,提供安全、高性能、低成本的产品和服务。

从十年的产品演进节奏,可以看出亚马逊云坚持的产品战略:

成本控制:

Graviton自研芯片,降低60%功耗,让利给客户(过去定价低20%)

给客户尽可能降价(M7i-flex),同时减少自身成本(6-7代共用100G网络);

性能第一:

AMD 处理器产品,M7a(Genoa)策略:释放物理核算力(提升50%),同时保证内存带宽(DDR5 4800,比上一代提升50%)。

Graviton策略:物理核,大容量Cache,最大内存带宽;同时选择V1,V2系列ARM架构,付出了密度降低一倍的代价(对比N系列),实现性能最优;

存储推出更大带宽,更低时延产品EBS Express,S3 Express

安全至上:

从Nitro加密付出网络加解密硬件开销代价、内存加密付出10%时延开销,仍然给客户提供最安全解决方案。

推出Nitro Enclaves,实现机密计算;

事实证明,亚马逊云科技可以为用户提供丰富的云应用选择,同时这些选择也是业界最先进、最高端的,这不仅提供了差异化的竞争力,也让用户可以第一时间调整自身业务,适应未来数字化的发展。