持续遥遥领先，亚马逊云科技打造IaaS坚实底座|vcpu|亚马逊云科技|亚马逊公司|内存|时延|服务器|科学家|财务会计|财务报表

一直以来，亚马逊云科技都是云计算行业的风向标，也是遥遥领先的引领者，每年的re:Invent大会更是引起全行业的关注。就在不久前，re:Invent2023顺利召开，会上不仅秉承了亚马逊云科技“客户第一”的理念，同时也发布了多款IaaS解决方案念，在性能、成本、安全方面进一步迭代。下面我们就来一起看看本次大会的众多亮点。

1 计算产品

1.1Graviton4产品发布

每次re:Invent大会，最重磅信息的莫过于自研芯片。Graviton系列芯片从2018诞生以来，已经上线150种实例，云上200万片，交付给5万用户使用，并且得到Top 100大客户认可，采用ARM计算产品来降本增效；比如SAP：是Graviton大客户；

与 Graviton3 相比，96 个 Neoverse V2 内核、每个内核 2 MB 二级缓存和 12 个 DDR5-5600 通道共同作用，使 Graviton4 的数据库处理速度提高了 40%，Web 应用程序处理速度提高了 30%，大型 Java 应用程序处理速度提高了 45%。

本次大会特意强调DB、Java场景，之前我们评测过，确实是ARM重点场景，相对于Graviton在其他强项场景，这两个场景性能不够突出，这也是本次发布会额外强调的原因。

几代ARM产品主要参数如下

基于ARM芯片的计算产品EC2R8g，单CPU支持96core，整机192core

Graviton支撑了大量云产品，包括DB、大数据、容器、FaaS

1.2Graviton4芯片架构

新的 Graviton4 内部有 96 个内核，基于 Arm 的 "Demeter" Neoverse V2 内核（基于 Armv9 架构），与拥有 64 个内核的 Graviton3 相比，内核数量增加了 50%。本次采用7个die的设计，12个DDR5 controller，分布在4个die上；2个PCIe5 die和CCIX NUMA互联die

超出预期的NUMA互连架构，ARM架构下CCIX实现并不是特别完善，时延也很大，但这一代Graviton竟然跨越了这一步。

为什么ARM服务器架构从过去的独立3 Socket架构，转向NUMA设计？

推测与定位分不开：大型数据库、SAP Hanna，以及Limitless Arura 数据库；当然这样对CCIX互连的时延要求很高期待有卓越的表现；

1.3面向应用性能的自研芯片

关于性能设计，第一张图，是传统Benchmark，推测应该是SpecInt2017，这种程序为了标准化，易安装，一般程序比较小，循环执行，很难反映真实业务性能。Graviton CPU设计产品采用“Real workload”基准，进行优化CPU设计；

MySQL基准测试显示 R8g 与 R7g 相比有 40% 的优势，在8vCPU 上测试 Groovy/Grails 应用程序时也有45%以上收益。

据统计，目前由Amazon Graviton支持的Amazon EC2实例种类达150多个，已经构建的Amazon Graviton处理器数量超过200万个，并拥有超过5万客户，包括Datadog、DirecTV、Discovery、Formula 1 (F1)、NextRoll、Nielsen、Pinterest、SAP、Snowflake、Sprinklr、Stripe以及Zendesk等。例如SAP，在使用Amazon Graviton服务之后，成本降低了35%，且分析速度更快，同时减少了45%的碳排放量。

本次发布会，都在对比上一代ARM，一直没有横向对比x86的数据，大家可以基于Graviton3的性能来推测。

2021年发布Graviton3的时候，性能比Graviton2的提升幅度，也可以作为G2-3的参考

1.4性能分析deep dive

Graviton3采用ARM V1架构，而Graviton4基于下一代V2架构，重点升级

L2 cache：1->2M

翻了ARM产品的V2架构，主要提升的性能参数如下

V2架构在微处理器的前端、后端均进行了优化提升

ARM的物理核有天然优势，需要积累的是服务器端高性能负载下的算法，比如指令预测、乱序执行、随机访问数据场景下的Cache预取算法。V2相对于V1来说，SIR提升带来的收益13%，SLC miss降低10%，看来内存的访问消耗了大量性能。Mop fetch和HW Prefetch性能提升最明显；

1.4.1.1Branch Predict/Fetch/ICache1.5 X86架构的EC2，仍然创新不断

X86发布两款产品：

首先是M7i-Intel SPR

CPU 96vcpu，两路192vCPU，集成了AI加速器

高达 3.2 GHz 第 4 代英特尔至强可扩展处理器（Sapphire Rapids 8488C）

新的高级矩阵扩展（AMX）可加速矩阵乘法运算

最新的 DDR5 内存，与 DDR4 相比，带宽更大

M7i-Flex架构：这一代产品核数是上一代的1.5倍，但是总IO性能相同，因此Flex作出让利

最大32vcpu，IO为12.5G网络/10GEBS

性价比提升19%，价格M6i降低5%，CPU性能提高15%

M7i产品规格

M7i-Flex最大32core，IO可以共享，只承诺最高12.5G、10G

性价比优势；

SAP HANA、Oracle 或 SQL Server大型内存型数据库场景，需要超大内存的实例，推出了U7i产品。

U7i 最多支持 896 个 vCPU，是 AWS Cloud 中数量最多的 vCPU。它们提供高达 100Gbps 的 Elastic Block Storage (EBS)，是现有 U-1 实例 EBS 带宽的 2.5 倍以上，使客户能够更快地将数据加载到内存中并提高备份速度。U7i 实例支持 EBS io2 Block Express 卷，可在 Amazon EC2 上提供最佳 EBS 性能。U7i 实例可提供高达 100Gbps 的网络带宽并支持 ENA Express。U7i 实例非常适合使用任务关键型内存数据库（例如 SAP HANA、Oracle 或 SQL Server）的客户。

第二款是M7a-AMD Genoa产品

与 M6a 实例相比，由第四代 AMD EPYC 处理器提供支持的 Amazon EC2 M7a 实例的性能可提升高达 50%。

主要特点：

睿频3.7 GHz 的第 4 代 AMD EPYC 处理器（AMD EPYC 9R14）Genoa

整机50 Gbps 的网络带宽，40 Gbps 的 Amazon Elastic Block Store（Amazon EBS）带宽

高达 192 个 vCPU 和 768 GiB 内存的实例

SAP 认证实例

支持采用 AMD 安全内存加密（SME）的全天候运行内存加密

支持新的处理器功能，例如 AVX3-512、VNNI 和 bfloat16。

全新解读：上一代Milan最大裸金属规格是192vcpu，这次为什么没进步？

AMD Genoa原本是96core，192ht的能力，为何没有推出384vcpu的产品？

答案是他们做了SMT off处理，直接给用户暴露物理核，大大缓解之前Milan时代内存不足、HT线性度差的问题；同时，M7a追求单vCPU带宽，以保证应用性能和时延最佳。

2 存储产品

存储产品EBS、S3思路是每年演进加大带宽，降低时延

首先，带宽每年提升速度30%左右，今年采用100G网络，50G给VPC，40G给EBS，剩余做管控。随着核密度上升（192->256/384），下一代预计会走向200G网络；

其次，存储时延非常重要，每年有新的加速产品发布给用户

在EBS上，采用EBS io2 express降低十倍时延；

在S3对象存储产品上，采用S3 express one zone降低10倍时延；

2.1EBS

过去从用户角度看产品，今年终于可以从EBS存储服务器角度，看实现架构：

EC2--Nitro--srd--EBS服务器，服务器规模使用Graviton CPU，从经验来看ARM服务器做存储的IO、压缩、校验，能大幅度发挥物理核优势。

EBS io2 express，去年发布会第一次发布，今年有更多产品规格落地

相对于之前的io2，提供了4倍带宽、容量；

相对于io1，10倍低时延，100倍可靠性，高IO吞吐场景下降低成本50%。

Io2 express基于SRD协议，带宽大幅度提升，时延大幅度降低。近年来DCTCP、RDMA协议纷纷用到了数据中心内部，大幅度提高IaaS互连吞吐。

2.2OSS

今年发布了一款新产品，名字有点长，Amazon S3 Express One Zone，为了解决前文讲的，就是一款对象存储的AZ内缓存加速器，其实叫S3 express比较好记。

S3典型时延10-200ms，对于ML、Bigdata、数据分析这些业务来说，计算需要等待数据准备好，计算集群消耗浪费等待时间，如何解决呢？S3 Express应运而生。

下图为方案架构：

下文有几个关键点：

计算服务器EC2与S3 Express同AZ

时延具备10倍速度，前文看到百毫秒级时延浪费大量时间，可以优化10倍Lantency；

推测采用SSD服务器集群，价格预计比HDD组成的S3贵10倍量级。

Amazon S3 Express One Zone 是一种高性能的单区 Amazon S3 存储类，专门用于为对延迟最敏感的应用程序提供一致的、个位数毫秒级的数据访问。S3 Express One Zone 是当今延迟最低的云对象存储类，数据访问速度比 S3 Standard 快 10 倍，请求成本比 S3 Standard 低 50%。应用程序可立即受益于请求完成速度快达一个数量级。S3 Express One Zone 提供与其他 S3 存储类类似的性能弹性。与亚马逊 S3 一样，无需提前规划或配置容量或吞吐量要求。可以根据需要扩大或缩小存储容量，并通过 Amazon S3 API 访问数据。S3 Express One Zone 是第一个 S3 存储类，可以选择单个可用区，并选择将对象存储与计算资源共置，从而提供尽可能高的访问速度。此外，为了进一步提高访问速度并支持每秒数十万次的请求，数据存储在一种新的存储桶类型中：Amazon S3 目录存储桶。无论键名或访问模式如何，每个目录桶都能支持每秒数十万次的事务处理 (TPS)。

3网络技术

3.1Nitro安全方案

机密计算对于政府业务、金融、多方交易非常重要，但是近些年普及速度并不好；Intel 退出SGX芯片安全方案，ARM有Trustzone方案，AMD也有自己的不同方案；对于用户来说，最好有一个统一方案。

Nitro Enclaves做到了这一点，将安全密钥等信息存储在统一的用户域之外的独立DPU空间，避免适配不同CPU而修改程序，这个比较巧妙的方案。可实现跨厂商、跨代兼容；后面还举出巴西银行区块链案例；

3.2物理网络演进

今年通用计算网络与上一代100G平台相同；网络增强达到200G；AI网络单卡达到400Gbps；对于采用ARM CPU的Nitro平台，在AI场景下采用Jumbo实现带宽翻倍，还是比较容易；当然面对AI训练场景，还是需要NVLink这种480GB/s的柜内总线互连。

4总结

随着开源软件越来越多进入企业生产业务，未来云计算不可替代性，需要芯片与软件结合，需要多产品矩阵结合，才能给客户创造差异化价值，提供安全、高性能、低成本的产品和服务。

从十年的产品演进节奏，可以看出亚马逊云坚持的产品战略：

成本控制：

Graviton自研芯片，降低60%功耗，让利给客户（过去定价低20%）

给客户尽可能降价（M7i-flex），同时减少自身成本（6-7代共用100G网络）；