打开网易新闻 查看精彩图片

数字化时代,数据已经成为企业决策和战略部署的核心资源。数据驱动的企业不仅是沉淀数据,更在于如何将数据转化为洞察和行动。

据国际数据公司(IDC)预测,全球数据量将从2018年的33ZB增至2025年的175ZB,增长超过5倍。其中,到2025年中国产生的数据总量将达48.6ZB,占全球的27.8%;对国内生产总值(GDP)增长的贡献率将达年均1.5-1.8个百分点。

ETL”已不能满足需求

随着数据量的不断增长,企业已经将数据作为重要的资产组成部分,亦是企业生存与发展的关键资源之一。如何更好地利用数据,成为当下企业数字化转型过程中面临的重要问题。企业需要不断地进行数据整合和处理,而ETL(Extrac 提取,Transform 转换,Load 加载)则是实现这一目标的重要工具。

可随着企业数字化的深入,传统的ETL架构已经不足以满足企业的数字化需求。当下,企业更需要一个可以直接访问数据源,并对其进行转换和加载,实现数据整合和处理的数据架构,以满足企业“降本增效”的新需求。

显然,在此背景下,传统的数字化管理思路已经不足以支撑企业的发展,这时候,企业需要打破原有的数字化管理思路,以数智化运营的思路搭建自身IT架构,赋能企业发展。

但是,就现阶段企业数字化转型而言,企业利用数据的效率并不好。据统计,对于绝大多数企业而言,企业内部有60%~70%的数据仍未被使用,Gartner数据表明,68%的企业数据没有被分析,多达 82%的企业受到数据孤岛的阻碍。

阿里巴巴集团副总裁、瓴羊CEO朋新宇曾对钛媒体表示,现阶段大多数企业不具备数据驱动的能力,造成了企业数据应用不足的现状,“不过与数据应用相比,缺乏数据治理能力的企业更多。”朋新宇指出。

同时,根据Gartner公司的调查显示,到2023年,只有30%的企业将拥有统一的数据管理战略。缺乏统一的数据管理规范是企业数据治理的痛点之一。确实,企业现阶段对于数据的治理和应用还有很多问题亟待解决,这些问题主要集中在数据质量和数据安全两个方面。

对于企业而言,由于数据来源的多样性,数据的准确性、完整性和一致性往往难以保证。例如,在销售数据中,可能会存在遗漏或者重复的销售记录,导致数据分析结果的失真。此外,数据格式的不统一、数据值的不规范等问题也会导致ETL过程中的错误和困难。

与此同时,在ETL过程中,需要对数据进行共享和整合,这可能会涉及到企业的商业机密和敏感信息。如果数据安全保障不到位,可能会导致数据泄露和滥用,给企业带来不可预测的风险和损失。

除了上述两点以外,ETL过程需要一定的技术和经验支持,然而很多企业缺乏必要的技能和经验。在进行ETL时,需要解决各种技术难题,如数据抽取、转换、加载等过程中的问题,以及数据存储、数据处理等方面的技术挑战。这些技术难度往往让很多企业望而却步。

在这些痛点的影响下,企业亟需一个NoETL,却具备ETL能力的架构,在Aloudata CEO 周卫林看来,随着企业数字化浪潮的发展,企业对数智化升级的诉求也在发生不同程度的跃迁,企业从数字化管理向着数智化运营发展的过程中,数据需求的响应效率成为企业数字时代最重要的经营能力,提升需求响应效率将成为数据工程体系进化升级的主要方向和重要价值目标。

ETL走向NoETL

企业数据仓库和湖仓混合架构是一个ETL驱动的集中式数据工程架构,这个数据工程架构有着诸如IBM、TeraData、数据中台等厂商多年的行业应用案例。但随着企业数字化进程的推进,ETL驱动的集中式数据工程架构遇见了明显的挑战。

这时候,NoETL架构应运而生。ETL 是将业务系统的数据经过提取(Extract) 、转换清洗(Transform)和加载(Load)到数据仓库、大数据平台的过程,将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据 。NoETL 则是一种分布式的数据处理方式,它不需要进行复杂的人工数据转换和清洗,可以通过虚拟化手段快速连接数据孤岛,并最大程度实现自动化的数据准备、语义建模和指标开发等数据分析和处理流程。

据Forrester 2021年调查显示,在215个受访企业分析中,平均数据源有320个,对此,周卫林对钛媒体表示,企业应用ETL驱动的集中式数据工程架构时主要面临着数据源快速增长、数据需求快速增长、数据安全合规挑战快速增长、数据运维成本快速增长,以及数据管理复杂性指数增长等问题,“ETL驱动的传统数据工程架构有着明显弊端,分别是:频繁数据搬运和高昂的存储成本;漫长的数据等待和繁重的任务运维;滞后的性能优化和失控的计算成本;失真的数据目录和失效的数据管理。”周卫林总结道。

基于当下企业的切实需求,周卫林认为,NoETL将成为新一代的数据工程体系,“Aloudata认为,‘NoETL’是一种企业业务能力,新一代的数据工程体系通过消除数据工程的技术瓶颈,提升ETL自动化水平,从而显著提高企业的数据就绪度。”周卫林如是说。

“NoETL”架构理念相较于传统的ETL架构,着重考虑了数据工程的敏捷性和自治性,并能大幅缩短业务数据需求响应时间,“通过弱化对ETL工程师的依赖性,提升整个数据工程体系的敏捷性和数据治理能力,并可以实现高度的自动化部署能力。”这是周卫林对于NoETL相较于传统ETL的优势的总结。

除了提升了整个体系的敏捷性与自治性可以帮助企业“增效”以外,NoETL还可以在这个全行业“降本增效”的时代,帮助企业实现“降本”的目的。

NoETL通过创建虚拟数据层,并使用AI驱动的数据加速技术,按需完成数据预计算和自动化释放预计算结果,大幅降低了数据复制、存储的成本和运维治理的成本。

不仅于此,采用NoETL的项目部署周期比传统ETL的项目缩短超过50%,而且专门从事ETL管道开发和运维的人员配置也比ETL时代的人员配置减少四分之三。

“NoETL架构理念是传统数据管理向自动化数据管理的跃迁,也是企业从数字化管理走向数智化运营的关键一步。而这点也与全球范围内日益成熟的Data Fabric理念完全契合。”周卫林指出。

从数字化管理走向数智化运营

从数字化管理向数智化运营理念转变的过程中,企业需要改变原有的惯性思维,彻底发破原有理念。从整体思路上看,在向着数智化运营思路转变的过程中,企业的需求将集中在更高灵活性和更强及时性两个方面。

展开来看,从企业核心诉求角度出发,在数字化管理时代,企业管理者更多注重“看数”的能力,而数智化运营时代,企业管理者需要更多的注重“用数”的能力,让数据实现真正的价值。

从需求特征角度出发,企业需要从原先的“事后管理”转变为“事前规划、事中指导、事后统计”三方面出发,指导业务全流程。

在数字化管理的体系下,企业的ETL作业量持续指数级增长,而企业ETL工程师的数量和工作精力是有限的,“当下,‘有限’的ETL工程师已经不能满足企业快速的数据增长和业务增长需求。”周卫林强调,“ETL工程变革,需要新思维、新架构、新技术。”

通过数据虚拟化引擎、数据语义引擎,以及主动元数据引擎,Aloudata开创性低提出了NoETL理念,帮助企业构建一个全新的NoETL架构,并从“物理”层,转化为“逻辑”层,实现了逻辑集成、逻辑视图、语义建模和开放服务的能力。

与此同时,周卫林对钛媒体表示,基于NoETL架构的数据管理体系,让企业无需关心数据的位置,无需操心任务运维,无需担心查询性能,专注于业务本身,实现“降本增效”。

而Aloudata提出的“NoETL”理念也与亚马逊云科技提出的“Zero ETL”相似。

2022年,亚马逊云科技在2022 re:Invent全球大会上发布关于“Zero ETL”两项全新的集成功能,并发布了几项将数据管理推向 Zero ETL 的新服务,企业不再需要考虑 ETL 的问题 ,实现将数据库,数据服务底层打通,把各种各样的数据都连接到执行分析所需要的地方,实现数据平滑“无感”的流动。

随着企业数据量的不断增长和业务需求的不断变化,传统的ETL架构已经无法满足现代企业的数据处理需求。而NoETL架构作为一种新型的数据处理架构,具有更高的效率、更低的成本和更好的灵活性,可以更好地适应现代企业的需求。通过使用NoETL架构,企业可以更快地处理海量数据、更有效地利用资源、更快地适应市场变化和客户需求,从而提升业务处理速度、优化资源利用效率、增强业务竞争力。因此,我们有理由相信,NoETL架构将成为未来企业数据架构的主流。