编者按:

在数智化浪潮的推动下,云计算已成为现代企业不可或缺的基础设施。然而,随着企业业务对云服务的依赖程度日益加深,如何确保云服务的稳定性和可靠性,成为摆在企业面前的一道难题。

面对自然灾害、网络攻击、系统故障等不确定性因素,云端韧性显得尤为重要。作为全球领先的云计算服务提供商,亚马逊云科技以其卓越的技术实力和丰富的实践经验,在云端韧性领域树立了标杆。

云端韧性,不仅指云服务和应用程序在面临威胁或中断时能够迅速恢复,还涵盖了其在日常运行中的稳定性,确保系统始终如一地提供可靠的服务。

在数智化转型的今天,云端韧性不仅是IT系统稳定性和可靠性的体现,更是企业业务连续性和市场竞争力的关键所在。一旦云服务出现中断,可能导致企业运营受阻、客户体验下降甚至数据丢失等严重后果。因此,构建云端韧性已成为企业IT战略不可或缺的一部分。

亚马逊云科技云端韧性的三大支柱

亚马逊云科技大中华区解决方案架构总经理代闻
打开网易新闻 查看精彩图片
亚马逊云科技大中华区解决方案架构总经理代闻

亚马逊云科技大中华区解决方案架构总经理代闻表示:“亚马逊云科技去年每天稳定启动的Amazon EC2实例超过1亿,每秒API请求数高达100万亿。正是因为做对了很多事情,才有今天全球数百万客户的选择和信任。”

亚马逊云科技云端韧性的三大支柱包括:韧性的基础设施,通过全球布局与冗余设计确保服务的全球可达性和高可用性;韧性系统架构,通过单元架构和数据面与控制面的分离,减少故障影响范围,提升系统可用性;卓越的运营机制,通过的DevOps文化与自动化工具,促进团队协作与持续改进,提升运维效率和响应速度。

这些支柱共同支撑亚马逊云科技云服务本身的高韧性,助力企业应对不确定性挑战。

性的基础设施:全球布局与冗余设计

亚马逊云科技在全球范围内构建了庞大而高效的数据中心网络,设计了区域、可用区、数据中心的层级设计,并覆盖了主要的市场区域。这些基础设施不仅地理位置分布广泛,而且通过高速骨干网络相互连接,形成了一个强大的全球云计算网络。这种全球布局不仅降低了延迟、提高了数据传输效率,还为跨区域的数据备份和容灾提供了便利。

在每个区域内,亚马逊云科技都设有多个可用区(AZ),每个可用区下又有数个数据中心相连。三个层级内外部均提供低延迟网络互连,并配备了独立的电力供应、冷却系统和物理安全设施。这种多可用区的设计有效降低了单点故障的风险,即使某个可用区出现故障,其他可用区仍然能够正常运行,确保服务的连续性。此外,亚马逊云科技还提供了跨区域的数据复制和故障转移解决方案,如Amazon S3的跨区域复制功能,确保用户数据的安全性和可用性。

系统架构:单元架构与控制面分离

亚马逊云科技推崇的单元架构理念强调将应用负载分割成多个独立的单元,每个单元都具备完整的功能和独立的资源。这种设计方式有效降低了单个故障点对整个系统的影响范围,实现了“爆炸半径”控制。当某个单元发生故障时,其他单元仍然能够正常运行,从而确保服务的连续性和可用性。亚马逊云科技还设计了三种不同类型的故障隔离边界,可用区级、区域级以及全球级,通过将服务本身切割成独立的单元架构,并将这些独立的单元分布式部署在不同级别的基础设施中,来设置不同层级的故障隔离边界。

同时,亚马逊云科技注重控制面和数据面的分离。控制面负责系统的配置和管理,而数据面则负责处理实际的业务逻辑和数据交互。一方面,数据面可以脱离控制面运行,即使控制面短时间失效,也不影响数据面的正常运行。另一方面,数据面和控制面可根据各自的扩展需求进行独立扩展,而互不影响,在确保云服务本身韧性的基础上又提升了扩展能力。

运营机制:DevOps文化与自动化工具

亚马逊云科技推行DevOps文化,强调开发与运维的紧密联系。在亚马逊云科技内部,每个服务团队都对其负责的服务拥有完整的所有权和运维责任,这种机制确保了服务的稳定性和可靠性。通过打破传统开发与运维之间的壁垒,亚马逊云科技促进了团队协作和持续改进,提高了整体运营效率。

据了解,亚马逊云科技提供了丰富的自动化工具来支持运营机制的实施。这些工具涵盖了资源部署、配置管理、性能监控、故障排查等多个方面。例如,Amazon CloudFormation允许用户通过模板化的方式来部署和管理亚马逊云科技资源,大大简化了资源管理的复杂性;Amazon OpsWorks则提供了一套自动化运维解决方案,帮助用户实现应用的快速部署、配置和扩展;Amazon DevOps Guru利用AI和机器学习技术实现对系统的实时监控和故障预测,进一步提升了系统的韧性和稳定性。

助力企业构建云端韧性的实践路径

亚马逊云科技基于基础设施、服务和运营机制构建了自身的韧性,同时也致力于帮助客户构建端到端的韧性系统。

Netflix作为全球领先的流媒体服务提供商,自2008年起便与亚马逊云科技展开了深入合作。在亚马逊云科技的支持下,Netflix成功构建了多主多活的韧性架构,实现了在全球190多个国家和地区为超过2.6亿付费会员提供稳定可靠的视频服务。通过采用亚马逊云科技的云原生服务和最佳实践,Netflix不仅降低了IT成本,还显著提升了系统的可用性和容错能力。

代闻说,对于大多数企业而言,构建云端韧性并非易事。然而,通过借鉴亚马逊云科技的成功经验和最佳实践,企业可以端到端地建立起自己的云端韧性体系。

具体来说,企业可以从以下几个方面入手:

明确业务需求和韧性目标:企业应根据自身的业务特点和风险承受能力,明确对系统可用性和韧性的具体需求,并在业务需求、可靠性、成本、系统复杂度之间取得均衡。

将韧性融入标准开发生命周期流程中:标准的软件开发生命周期是一个企业普遍使用的开发流程。通过将韧性构建的步骤嵌入到这个现有的开发框架中,企业可以更轻松地将韧性策略与现有的流程和工具结合起来,而不需要重新设计新的流程或工具。

构建和设计具备韧性控制措施的工作负载和系统:包括自动扩展、负载均衡、备份,以及高可用方案和容灾方案。Amazon Aurora和Amazon DynamoDB,都提供多可用区多AZ的同步功能;使用Amazon Aurora Global Database,其中单个Aurora数据库可以跨多个区域,以实现快速本地读取和快速灾难恢复

验证测试,持续运营:通过模拟测试发现潜在问题,并利用自动化、监控等服务对系统韧性进行持续运营。系统韧性的提高是持续的过程,而不是一次性的努力

定期演练和持续改进:企业应定期进行韧性演练和评估,以检验系统的韧性水平和故障响应能力。同时,根据演练结果和实际需求不断调整和优化韧性策略和技术方案,确保系统的持续稳定和改进。

结 语

在数智化转型的大潮中,云端韧性已成为企业不可或缺的核心竞争力之一。亚马逊云科技作为全球领先的云计算服务提供商,凭借其强大的技术实力和丰富的实践经验,在云端韧性领域树立了标杆。通过基础设施、系统架构和运营机制三大支柱的支撑,构筑起云端系统本身坚实的韧性。在服务客户的过程中,亚马逊云科技同时积累了丰富的企业韧性构建的成功经验和最佳实践,并将这些实践与自身的服务相结合,助力更多客户的云上应用负载提供端到端的韧性。

基于云和自身业务系统的双重韧性构建,企业才能在日益复杂多变的IT环境中保持业务的连续性和稳定性,实现长期竞争优势。