原标题:在流量洪峰中“乘风破浪”,存算分离助力电商玩转618

一年一度的年中电商大促——618购物节已经开启,由于2020年以来的疫情影响,导致近半年的国内消费需求被抑制,可以预见,此次电商购物节将迎来一轮消费市场的集中爆发,尤其在当前全行业都在努力拉动消费回升、促进经济恢复的时间节点下。

对于电商行业而言,爆发性的消费需求无疑将产生巨大的流量,虽说流量的背后意味着收益,但同时电商平台也为此付出着巨大的IT成本。举例来说,平时满足100个人的在线购物需求,购物节则至少要准备保障1000人正常购物的IT资源。

扩容带宽、CDN,增加计算资源、存储资源……这一切都是附着在高流量背后的高成本。其中,传统的存算一体架构就是较高的成本来源之一,计算和存储一体造成了资源的大量冗余,利用率偏低,尤其对于电商业来说更为明显。

领先的电商企业正在利用云计算优势,采用存算分离,使得存储和计算可以灵活配置,单独按需扩缩容,进而达到提升计算资源利用率、降低成本的目的。

存算分离:降本增效利器

一直以来,Hadoop架构以及大部分商用大数据软件均采用存算一体,即存储与计算是一体融合的,那么,为什么说“约定成俗”的存算一体带给了电商行业尤为高企的成本?

众所周知,电商具备流量波峰波谷的行业特点,在扩容时,就必须按照波峰去进行计算、存储的一体扩容,这显然对于资源的平均利用率造成浪费;另外数据会持续增长,但是计算能力不需要同步等比例增长。而传统存算一体上计算和存储资源的配比相对固定,也就意味着每提升多少存储容量,同时也要提升多少算力。

这种紧密绑定的模式,注定有一种资源是浪费的。根据数据统计,在计算存储合一的情况下,计算资源的平均利用率不到50%,本地HDFS一般采用三副本冗余机制使得存储的利用率不到33%。此外,这种封闭的架构难以向数据湖和大数据云化的方向演进,也就无法发挥数据的最大价值。

存算分离则打破了这一瓶颈,实质就是Hadoop计算组件部署与HDFS存储池解耦部署,计算组件的扩容和存储池的扩容无需耦合,从而极大的提升了大数据扩容的灵活性。数据湖存储采用先进的存储冗余机制,最大程度的提升了存储磁盘的利用率。

降本增效,存算分离后带来的好处十分明显:

计算和存储按需扩展,计算不足扩计算,存储不足扩存储,可以很大程度上避免资源浪费;存算分离后,计算和存储还可以分别云化,实现资源的动态分配;一些专业存储更是可以借助多租户能力,以统一的存储资源池支持多个大数据平台,实现多平台数据的高效共享。

华为云助推资源利用率最优化

由于存算分离架构带来的独特优势,它也正成为包括电商行业在内的众多行业企业建设大数据平台的新趋势。为此,华为云推出了基于云服务存算分离架构的大数据解决方案,让存储和计算资源可以灵活配置,综合分析成本最高可降低50%,目前已获得众多大型企业的青睐,并得到部署。

为什么华为云存算分离大数据解决方案能带来如此大幅的成本节省,又有哪些优势?从两个方面来说明。

首先,在存储层,华为云存算分离大数据解决方案以高性能、高可靠的OBS对象存储服务作为统一的数据湖存储底座。其创新性的提供了Data Multi-Protocol功能,支持HDFS、POSIX、S3等多种协议,实现用一份数据直接对接多种类型的计算引擎、AI平台,数据0搬移0拷贝,大幅节约存储空间,降低成本。同时OBS数据湖还具备EB级容量支持、单桶千亿对象数据管理能力和10TB级IO带宽能力、以及智能全局缓存加速能力,为大数据、AI训练等海量数据、批量计算场景提供高性能存储保证。

其次,在计算层,华为云存算分离大数据解决方案以鲲鹏高效算力作为计算底座,具备强大的多核处理优势,结合华为云在任务调度上的算法优化,使得CPU具有更高的并发能力,可为大数据和分布式应用场景带来20%的性能提升,实现相比业界通用架构平台更优的性价比。基于鲲鹏处理器,华为云提供了包括裸金属服务器、云服务器、容器和Serverless在内的多种粒度的算力支持,应对客户不同的场景需求。同时结合前述OBS数据湖存储方案,大数据平台的计算资源也变得“无状态”,从而带来了更加极致的按需使用、弹性扩缩容体验,进一步降本增效。

最后,在服务层面,华为云基于上述存储和计算基础架构的之上,进行了深度整合和优化,提供了基于存算分离架构的一系列大数据服务,包括MRS、DLI、CSS等一众服务都支持存算分离架构,这些大数据服务可以提供比自建更加灵活的弹性扩缩容、极简运维等优势。

以某Top社区电商为例,原本客户采用ES+Clickhouse+Hive分别满足用户行为日志详单查询、交互式分析、ETL等业务,多份数据产生“数据孤岛”,而且存算一体可扩展性差,成本居高不下。后来该社区电商采用了华为云存算分离+MRS CarbonData构建全场景数据湖解决方案,一份数据同时满足快速详单查询+交互式分析+ETL,PB级别数据详单查询秒级响应,交互式分析30秒内响应,ETL加速2倍。同时由于计算存储解耦,计算节点可随时按需快速扩缩容,最终整体成本下降超过50%。

从存算分离到智能数据湖,释放数据价值

数据越来越成为企业的核心资产,需要强调的是,华为云在存算分离架构之上形成的大数据解决方案为企业带来的不仅是性价比的提升,更为提升企业数据价值发挥作用。

传统来说,企业在挖掘数据价值上除了面临存算一体造成资源大量冗余的挑战外,还包括缺乏一个统一系统支撑所有数据分析导致的数据孤岛,以及随着数据规模的越来越大导致的数据运维和管理困难等挑战。

为此,华为云通过整合所有数据层面的能力,打造了智能数据湖解决方案,帮助企业释放数据价值。在统一数据存储层,华为云利用存算分离,实现存储和计算单独按需扩缩容,使资源利用率达到最大化;在多元计算层,全栈支持包括一站式大数据平台MRS服务,批流计算+交互式分析的多模计算DLI服务,以及增强的企业级数据仓库DWS服务等;在数据运营层,围绕数据处理过程提供端到端一站式数据运营能力,从数据集成、规范设计、开发、质量管理,到形成数据资产,以及对外开放服务支撑业务应用。

统一多数据源、消除数据孤岛、统一数据规范、提升数据质量,华为云智能数据湖真正帮助企业轻松实现“数据一盘棋”。围绕数据全生命周期的采、存、算、管、用的全面云化,在华为云企业智能EI的助力下,最终让数据成功创造价值。