导读:

随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI)、数据仓库、数据湖、数据中台等,这些概念特别容易混淆,本文对这些名词术语及内涵进行系统的解析,便于读者对数据平台相关的概念有全面的认识。

数据仓库

数据仓库平台逐步从BI报表为主到分析为主、到预测为主、再到操作智能为目标。

图1.数据仓库发展阶段划分

1.1

数据仓库基本定义

图2.数据仓库逻辑架构

1.2

数据仓库系统作用和定位

数据仓库系统的作用能实现跨业务条线、跨系统的数据整合,为管理分析和业务决策提供统一的数据支持。数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。

图3.数据仓库的作用

  • 是面向企业中、高级管理进行业务分析和绩效考核的数据整合、分析和展现的工具;

  • 是主要用于历史性、综合性和深层次数据分析;

  • 数据来源是ERP(例:SAP)系统或其他业务系统;

  • 能够提供灵活、直观、简洁和易于操作的多维查询分析;

  • 不是日常交易操作系统,不能直接产生交易数据;

数据仓库针对实时数据处理,非结构化数据处理能力较弱,以及在业务在预警预测方面应用相对有限。

1.3

数据仓库能提供什么

图4.数据仓库提供价值

1.4

数据仓库系统构成

数据仓库系统除了包含分析产品本身之外,还包含数据集成、数据存储、数据计算、门户展现、平台管理等其它一系列的产品。

图5.数据仓库产品构成

图6.数据仓库产品构成

数据湖

数据湖(Data Lake)是Pentaho的CTO James Dixon提出来的(Pentaho作为一家BI公司在理念上是挺先进的),是一种数据存储理念——即在系统或存储库中以自然格式存储数据的方法。

2.1

维基百科对数据湖的定义

数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。来源:维基百科。

目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。

图7.数据湖的处理架构

图8.数据湖示意图

2.2

数据湖能给企业带来多种能力

数据湖能给企业带来多种能力,例如,能实现数据的集中式管理,在此之上,企业能挖掘出很多之前所不具备的能力。另外,数据湖结合先进的数据科学与机器学习技术,能帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。数据湖能从以下方面帮助到企业:

  • 实现数据治理(data governance)。

  • 通过应用机器学习与人工智能技术实现商业智能。

  • 预测分析,如领域特定的推荐引擎。

  • 信息追踪与一致性保障。

  • 根据对历史的分析生成新的数据维度。

  • 有一个集中式的能存储所有企业数据的数据中心,有利于实现一个针对数据传输优化的数据服务。

  • 帮助组织或企业做出更多灵活的关于企业增长的决策。

2.3

数据仓库与数据湖差异

  • 在储存方面上,数据湖中数据为非结构化的,所有数据都保持原始形式。存储所有数据,并且仅在分析时再进行转换。数据仓库就是数据通常从事务系统中提取。

  • 在将数据加载到数据仓库之前,会对数据进行清理与转换。在数据抓取中数据湖就是捕获半结构化和非结构化数据。而数据仓库则是捕获结构化数据并将其按模式组织。

  • 数据湖的目的就是数据湖非常适合深入分析的非结构化数据。数据科学家可能会用具有预测建模和统计分析等功能的高级分析工具。而数据仓库就是数据仓库非常适用于月度报告等操作用途,因为它具有高度结构化。

  • 在架构中数据湖通常,在存储数据之后定义架构。使用较少的初始工作并提供更大的灵活性。在数据仓库中存储数据之前定义架构。

数据中台

3.1

产生的背景

3.2

数据中台建设是数字化转型的关键支撑

数据中台成为热点,“中台”这个概念,是相对于前台和后台而生,是前台和后台的链接点,将业务共同的工具和技术予以沉淀。数据中台是指数据采集交换、共享融合、组织处理、建模分析、管理治理和服务应用于一体的综合性数据能力平台,在大数据生态中处于承上启下的功能,提供面向数据应用支撑的底座能力。

广义上来给数据中台一个企业级的定义:“聚合和治理跨域数据,将数据抽象封装成服务,提供给前台以业务价值的逻辑概念”。

图9.数据中台建设是数字化转型的关键支撑


3.3

数据中台定义及处理架构

数据中台是指通过企业内外部多源异构的数据采集、治理、建模、分析,应用,使数据对内优化管理提高业务,对外可以数据合作价值释放,成为企业数据资产管理中枢。数据中台建立后,会形成数据API,为企业和客户提供高效各种数据服务。

图10.数据中台架构图

数据中台整体技术架构上采用云计算架构模式,将数据资源、计算资源、存储资源充分云化,并通过多租户技术进行资源打包整合,并进行开放,为用户提供“一站式”数据服务。

利用大数据技术,对海量数据进行统一采集、计算、存储,并使用统一的数据规范进行管理,将企业内部所有数据统一处理形成标准化数据,挖掘出对企业最有价值的数据,构建企业数据资产库,提供一致的、高可用大 数据服务。

数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合,企业基于自身的信息化建设基础、数据基础以及业务特点对数据中台的能力进行定义,基于能力定义利用数据组件搭建自己的数据中台。

3.4

数据中台带来价值

传统数据仓库与数据中台的差异点

图11.数据中台与传统数据仓库比较

表2.技术路线对比表

作为工业企业,一般采用混搭架构

表3.技术路线选型比较表

结论

数据中台更好的支撑数据预测分析、跨领域分析、主动分析、实时分析、多元化结构化数据分析,数据中台建设是我们企业数据服务和共享奠定重要的基础,可以加速从数据到价值的过程,打造相应业务能力。(本文作者:杨青)