之前的文章讨论过数据分析、数据治理、数据仓库等等,即使是非业内人员从字面意思,也是可以了解一二的,但是,很多人对于元数据可能就比较陌生了。那么,今天我们就来聊一聊元数据管理。
一、数据仓库
要说元数据,那就离不开数据仓库。
数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定的数据集合,用于支持管理决策过程。其本质就是完成从面向业务过程数据的组织管理到面向业务分析数据的组织和管理的转变过程,也是商业智能BI中数据仓库的主要作用。
数据仓库就像企业的总的大仓库,能够存储不同来源、不同格式的数据,并且可以通过ETL和数据模型,对数据进行高质量的筛选,分级分类进行存储。具有很强的稳定性,不会频繁的进行增删改等操作,能够反应历史变化。
用通俗的话来说就是数据仓库就像一个终端的大仓库,其他小仓库的各种货品会通过各种方式统一存储到这里,然后通过仓库位置的划分、货品的摆放进行归纳分类,实现规范、标准的从存放,到分类,再到使用的完整过程。
二、元数据的定义
简而言之,元数据就是数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据和业务元数据。
●业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。
●技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据。
三、元数据的应用场景
1、血缘关系:提供实时血缘查询能力,解决数据来源不容易确定、难以评估数据变动造成的影响等问题。
2、元数据查询:开发平台、指标模型管理、商业智能BI工具等通过元数据服务查询库表信息。
3、资产管理:通过系统采集的元数据信息,对数据资产进行集中管理,设置生命周期、安全等级等关键属性。
4、影响分析:支持查询当前节点全部下游,支持变更通知模块根据影响范围进行变更消息的发送。
5、价值评估:数据资产价值评估模型通过元数据中心提供的丰富的元数据得以落地。
四、元数据管理的挑战
日趋复杂的数据环境,随着越来越多的非结构化、半结构化数据渗透到企业的数字环境中,采用传统的元数据管理方式来采集、处理和检索元数据,尤其是在处理复杂的数据关系时,虽然人们很容易根据认知关联来判断两个或多个事物是否相关,但目前的元数据管理工具却常常无法做到。
企业的数据是在数据供应链中不断移动的。这里所说的数据供应链,是指从数据创建到数据的加工处理、存储使用的整个生命周期链条。随着数据的不断创建、抽取和转换,有关数据来源、血缘、转换过程、质量级别以及与其他数据的关系的元数据也会随时变化。
元数据管理能够增强数据理解,是企业内部IT和业务部门的纽带,做好元数据管理能够在企业内部追溯业务指标,报表数据来源,同时也能敏捷的应对企业数据分析的需求。
热门跟贴