打开网易新闻 查看精彩图片

一、行业趋势和背景

数据资产的重要性体现在多个方面,它不仅是企业决策制定的基础,也是优化业务流程、提升竞争力的关键。然而由于历史原因和管理问题,许多企业的数据资产往往分散在各个部门或系统中,形成了“数据孤岛”,例如:指标计算口径不一致,数据质量不高等问题。这种分散状态不仅影响了数据的利用效率,还增加了数据管理的复杂性。

因此,数据指标资产在企业运营和发展中发挥着至关重要的作用。因此,企业高度重视数据指标资产的管理和利用,不断提升数据质量和分析能力,以充分发挥数据指标资产的价值。

二、需求——模型标准化、规范化、统一化建设;指标资产的标准化管理

1. 数据模型资产在数据管理和应用中扮演着至关重要的角色,但也存在一些问题和挑战。

· 数据模型的复杂性和一致性:模型的设计往往涉及多个业务领域和复杂的逻辑关系,由于数据模型由不同的团队或部门设计,存在不一致性和重复建设,影响数据的整合和分析。

· 业务需求变化:业务需求是不断变化的,而数据模型的设计往往基于特定的业务需求。当业务需求发生变化时,数据模型的设计往往不够灵活,跟不上业务需求的变化。

· 模型资产管理的意识:缺乏对数据模型资产的管理意识,导致数据模型的设计、维护和利用存在不足。另外,数据模型开发过程中缺乏统一的数据模型规划和管理,导致模型的重复建设和数据质量问题。

2. 指标资产在业务层面拉通困难,开发和维护困难。

· 指标定义不清晰、指标计算逻辑不明确:各部分对指标的定义可能存在差异,导致指标在跨部门使用时出现理解上的偏差。

· 指标开发和维护成本高:指标定义不清晰或逻辑不明确,在开发时需反复沟通和修改,增加了开发成本;另外,由于指标的开发和维护缺乏统一的标准和规范,在修改和调整时,导致调整和优化无法及时跟进。

· 管理和治理问题:指标的管理缺乏统一的标准和流程,导致指标的开发、维护和应用混乱,一些指标被开发后快速被废弃;指标的质量也缺乏有效的监控和评估机制,导致指标的质量和准确性难以保证。

三、产品解决方案

基于DataSimba内置的指标工厂(SimbaMetric)模块,可解决上文提到的模型资产和指标资产的管理难题。

SimbaMetric也称作“指标工厂”,它是基于业界通用的维度建模和指标体系,内置MIM(Metric Index-Model)方法论,支持企业构建唯一性、标准化、规范化的指标体系和数据模型。指标工厂具备数仓规划、数据标准、指标管理、数据建模等功能,将无序、杂乱、繁琐、庞大且难以管理的数据,进行有序的结构化管理,达到指标统一、工程规范、数据易用的效果,使数据资产化。

企业数据资产化建设工作步骤如下:

打开网易新闻 查看精彩图片

1. 数仓规划

数仓规划旨在构建一个集中、整合、易于分析的数据环境,通过分层架构、明确的数据域划分、对业务过程的深入理解和主题域的聚焦,来提升数据价值,支撑企业智能化决策。

· 数仓分层:可以根据企业的自身情况自定义分层,也可以使用默认分层方案。

· 业务过程:深入分析和识别业务操作的核心流程,如订单处理、客户服务、市场营销等,确保数仓设计能准确反映并支持这些关键业务过程的监控和分析。

· 数据域将数据按照业务相关性划分为多个领域,如客户域、产品域、销售域等,每个域内包含该领域下的所有数据实体和属性,便于数据管理和跨域数据整合。

· 主题域:围绕特定分析主题(如销售分析、客户行为分析、供应链管理)组织数据,每个主题域聚焦于一类分析需求,确保数据模型的设计贴合实际分析场景。

完成规划设计后,数据开发工程师在建模过程中可以依赖数仓规划中的数仓分层、表名定义、数据域、业务过程等对所建模型进行分层化域的管理,以解决数据模型资产的一致性、维护困难等问题。

2、数标准

数据标准不仅涵盖了度量单位的统一、词根的一致使用,还深入到了数据标准本身的业务定义、标准值的管理等多个层面。通过这些规范约束,从根本上提升数据质量,确保数据在产生、存储、处理及应用的整个生命周期中保持高度的一致性和准确性。

· 度量单位统一:确保所有相关数据使用相同的度量单位,比如时间统一使用UTC时间,货币统一为美元或本位币,避免因单位不一致导致的计算错误或误解。

· 词根一致性:在命名规范中采用一致的词根,比如使用“customer”而非“cust”或“usr”,增强数据元素的可读性和可理解性,便于跨部门间的沟通与协作。

· 数据定义清晰:为每一个数据元素提供明确且统一的定义,包括其业务含义、数据类型、取值范围等,减少歧义,确保数据被正确理解和使用。

· 标准值管理:建立和维护一套标准值体系,比如状态码、地区代码等,确保相同意义的值在全系统中保持一致,便于数据集成和分析。

· 数据质量规则:定义数据质量检查规则,如必填项检查、数据范围检查、唯一性验证等,自动或定期执行数据质量检查,及时发现并纠正数据质量问题。

· 数据管理:建立完善的元数据管理体系,记录数据来源、变换过程、数据质量评估结果等,增强数据的可追溯性和透明度。

通过从源头上保障数据的标准化生产,可以显著降低后续数据应用和处理的成本。

3、指标体系

· 指标的梳理和定义:对指标进行清晰的定义,我们建议维护其核心属性至平台,包含业务含义、计算口径、数据来源、业务责任人等,确保不同部门、不同人员对同一指标的理解一致。

· 维护与更新流程:建立指标资产管理流程,在新需求受理和指标维护更新时强制维护指标核心属性,以确保指标资产的准确性和实效性,同时方便追溯和回溯。

打开网易新闻 查看精彩图片

4、 模型规范

· 维度模型水平拆分:通过横向分层、纵向分域的形式进行网格化管理,实现各层级、各业务域之间的解耦,当有新增需求和变更需求时仅需对某一网格或某一字段进行修改即可。

· 建立业务实体关系图:根据现有业务流程,梳理核心业务过程ER关系。为建立总线矩阵、实现数据质量自动校验提供基础。

· 规划总线矩阵:建立全业务领域总线矩阵,为模型公共层打好基础。提高代码复用率,减少重复建设和维护工作量。

· 生成数据明细层DWD和维度表DIM:围绕各业务域相关业务过程进行设计,事实表按主键、维度、属性(通用/特有)、度量、系统值等6种一级类型进行拆解,实现对事实表的最大化复用。同类型事业部事实表迁移只需要调整特有属性。

· 生成数据应用层ADS指标体系:将所有主题域信息存放到统一的业务元数据表中进行管理。后续迭代需要有人进行版本管理和统一发布。

打开网易新闻 查看精彩图片

四、价值

1. 提高效率和质量

可以确保模型在不同环境、不同人员之间的使用具有一致性和准确性。有助于减少因模型差异而导致的误解和错误,从而提高整体工作效率。

以某光电集团公司为例,自从引入指标工厂依赖,各个子公司统一了指标规范、指标体系、数据模型,减少了40%的专业开发人员,同时分析指标开发周期平均缩短了50%。

2. 降低维护成本

规范化的模型设计使得维护工作更加有序和高效,减少了因设计不一致带来的额外工作量。

3. 优化业务流程

规范化的模型为业务流程的标准化提供了基础,确保流程的一致性和可复制性。统一化的模型和指标定义跨越了部门界限,促进信息共享,增进部门间的理解和协作。