打开网易新闻 查看精彩图片

随着大数据技术的快速发展,企业对于数据处理的需求和数据量级也在不断增长。为了满足用户在数据集成、开发、分析以及治理方面日益复杂的需求,得帆云aPaaS对数据开发插件进行了重大更新。

此次数据开发插件升级不仅增强了现有功能,还新增了对轻量化实时数仓的支持、加强了数据质量管理和完善了元数据管理体系等功能模块,旨在为用户提供一个更加全面、高效、轻量的数据开发平台。

打开网易新闻 查看精彩图片

新增轻量化实时数仓

在数据开发插件的存算引擎原先支持Hadoop离线数仓的基础上,本次升级扩展增加轻量化实时数仓Doris的支持,从而实现同时支持离线数仓和实时数仓的能力。

打开网易新闻 查看精彩图片

1.轻量化实时数仓的优点

  • 高性能数据查询能力:采用先进的索引技术和分布式存储方案,确保即使面对上亿级海量数据和多表关联,也可以在秒级时间内获取所需数据,保持良好的查询性能。
  • 实时数据处理分析能力:引入Flink分布式处理框架,提供批流一体数据处理能力,兼具ETL与CDC,能够接收、处理并分析连续流入的数据,为用户提供即时的业务洞察。
  • 通用标准的兼容能力:采用MySQL协议,高度兼容MySQL语法,支持标准SQL,用户可以通过各类客户端工具来访问,以及兼容MySQL协议的代码工程,无需调整代码,平滑过度。
  • 简单灵活的部署架构:提供简洁的部署与运维过程,可以低成本快速部署。同时基于MPP架构的高可用、高可靠性,可以支持横向扩展到数百台机器,数十PB的存储容量。

2. 实时数仓应用场景

  • 实时业务监控和预警:对业务数据进行实时的业务监控和异常时的预警通知,避免线上业务中断未能及时发现造成的损失。
  • 实时报表大屏:主要用于需要展示实时看板数据,例如面向消费经营的双11当日业绩目标达成情况、面向互联网的站点分析、面向制造车间的设备数据。
  • 实时自助分析:面向企业内部的数据分析师的自助分析,提供即席查询能力,经常是查询模式不固定,且要求较高的吞吐。
  • 实时数据接口/推送:有一些数据对外的场景,需要实时提供最新的数据,通过数据接口或者主动推送的方式,便于跨系统对接,数据共享。

增强数据质量管理

数据开发插件的数据质量管理在本次升级里上线了大量新功能,涉及质量规则、质量方案、质量监控的功能模块,支持事前规则配置、事中规则校验、事后分析报告,提供完整、及时、流程化的数据质量解决方案。

1. 质量规则增强

  • 丰富灵活的规则模版库:提供多种生产实战的质量规则,灵活组合,包括表级、字段级等30+种规则,覆盖准确性、完整性、一致性、唯一性、有效性5大层面;同时支持自定义规则,扩展满足业务个性化需求。
  • 强弱规则控制:支持规则关联到作业上,按需设置规则的强弱来控制作业是否失败退出,从而避免脏数据影响扩大,有效降低数据恢复处理的时间成本和费用成本。
  • 异常告警通知:支持配置质量规则监控,可以按照监控告警条件触发告警消息通知,支持邮件、短信、企微、钉钉、飞书等多渠道消息通知,帮助用户第一时间感知问题数据。

打开网易新闻 查看精彩图片

2. 质量监控增强

  • 质检运行日志:在质检规则周期性调度运行时,可以记录质量规则的全生命周期的运行日志,帮助用户快速定位和解决问题。
  • 质检详情追踪:采集质检规则的详细执行情况,可以记录每张表的质检结果、错误数、数据总量与具体异常的表数据记录,便于后续审计或问题追溯。
  • 质检报表分析:展示当前需要重点关注的监控配置情况、规则执行分析、TOP质量问题概况、规则校验概况、资产质检分析。帮助质量负责人快速了解项目数据质量整体情况,及时处理质量问题提升数据质量。

打开网易新闻 查看精彩图片

完善元数据资产管理

数据开发插件的元数据资产管理在本次升级里完善了相关能力,涉及元数据采集、元模型管理、元数据维护、数据资产、数据地图、数据血缘、数据权限等,为用户提供一站式的数据门户解决方案。

1. 完善元数据管理

  • 元数据采集:可以采集指定数据源的元数据,将表结构及血缘关系采集到数据地图中,展示表的内部结构。采集完成后,可以在数据地图或元数据维护查看元数据详情。
  • 元模型管理:在系统预定义的元模型基础上,支持拓展元模型,自定义表元数据及分类、表字段元数据,以便于后续进行元数据维护。
  • 元数据维护:支持维护自定义的元模型字段,单条维护表元数据或批量对表元数据进行导入。同时,支持在此检索所有已采集数据源的表,并查看元数据详情。

打开网易新闻 查看精彩图片

2. 完善数据资产管理

  • 数据资产全景:支持总览数据中台的数据资产全景,将资产的存储统计并直观地显示在页面上。该页面支持查看数据中台的集群存储量占用、cpu、存储空间、资产存储量占用和变化情况。实时观察数据变化量以便管理数据。
  • 数据地图与血缘:支持在元数据基础上提供的企业数据目录管理模块,涵盖全局数据检索、元数据详情查看、数据预览、数据血缘和数据权限申请等功能。数据地图可以更好地查找、理解和使用数据。
  • 据权限管理:支持进行权限申请、权限审批、权限审计的操作。支持查看、维护管理的数据和收藏的数据,以及管理相应数据的权限。

打开网易新闻 查看精彩图片

以上为本次数据开发插件全新升级带来的全新能力,在下一个版本中,我们将继续围绕平台的易用性、稳定性和开放性等进行持续迭代更新,敬请期待!

关于得帆云aPaaS数据开发插件:

得帆云aPaaS数据开发插件是通过大数据技术,对企业全域海量、多源、异构的数据进行采集、计算、存储、加工,同时统一标准,整合数据资产,为业务提供数据资源和能力的支撑,实现数据驱动的精细化运营,是一站式的数据开发平台。

打开网易新闻 查看精彩图片

  • 数据集成:支持丰富多种的离线/实时数据同步的数据源
  • 数据开发:支持可视化的离线/实时数据开发作业流、调度引擎
  • 数据指标:支持可视化的数据建模、构建指标体系
  • 数据标签:支持标签画像开发,对数据的深加工
  • 数据质量:支持完整、及时、流程化的数据质量解决方案
  • 数据资产:支持元数据管理、数据血缘分析、数据地图检索的数据资产管理
  • 数据服务:支持数据快速配置生成API服务,实现数据开放与共享