数据可观察性的作用不言而喻(延展阅读:可观察性是AI成功要素之一),作为数字化转型的重要环节,许多企业都会面临数据观察性的难题。
英国的AutoTrader成立于1975年,是一家从事汽车、卡车和其他车辆分类广告的老牌厂商。几十年来,无论是买卖新车或二手车,都是AutoTrader的业务市场。多年来,这家总部位于曼彻斯特的公司一直保持着其最大汽车市场的地位,但其商业模式发生了重大变化。例如,不再有印刷出版物,所有的产品清单现在都发布在网上。对这家上市公司来说是件好事,该公司去年的收入为3.689亿英镑,是富时指数(FTSE Index)成份股。
在将分析数据转移到云的过程中,AutoTrader采用了许多新工具和技术,包括BigQuery、Looker和DBT,这些帮助用户实现了数据访问的顺畅便捷。在此过程中,该公司将一个数据可观察性解决方案放入数据流,以确保其数据不会产生偏差(延展阅读:不良数据管线可能造成巨大损失)。
——BigQuery是Google的云数据仓库解决方案,它是Google 云平台的一部分。它旨在处理“大数据”报告,分析和数据科学。
数据迁移是现代化过程的一部分。AutoTrader正意图将数据完全迁移到云计算,逐渐退役以往的内部系统。公司选择将仓库移动到谷歌云的BigQuery,并采用Looker作为主要的BI和可视化工具,员工使用它访问。它还引入了DBT数据构建工具,这是一种用于自动化数据转换的流行工具,作为提取、转换和加载(ETL)过程的一部分。
彻底迁移数据分析资产的目的之一是让AutoTrader的内部和外部用户能够实现更多的自助服务。在五年前开始转换之前,获得数据的新视图或报告将需要大量的工作。提出需求,从摄取数据,建模,转换数据,构建报告。这一过程漫长且无法完全保证准确性。因为拥有庞大而复杂的模型,试图围绕数据可观察性去修改编码规则真的很困难。
例如一个客户数据表原本设计为每个客户只有一行,但突然开始每个客户有两行,这就表明出了问题。每个客户所依附的某个类别突然发生变化,这可能是出现问题的另一个迹象。知道这个表应该每24小时更新一次,知道它应该总是有10000行。可以手动写出这样的规则,当有10到20个模型,那也没什么。如果有几百个,那就难多了。
AutoTrader在2020年底采用了蒙特卡洛(Monte Carlo)公司的解决方案,并依赖它来关注数据流分析。每周会显示大约10项问题:其中一些是真正的错误,一些是假警报,一些很有趣,但……也不一定是数据本身的错误。
MonteCarlo的数据可观察性解决方案引入了DevOps(开发运营)和SRE(站点可靠性工程)的传统概念,并将其应用到数据领域。
蒙特卡洛解决方案是基于五大可观察性支柱,包括:数据的新鲜度(即数据的及时性);数据的完整性;分布一致性;模式,与字段和表的结构相关;以及数据轨迹(沿袭及更改)。如果软件检测到任何字段的任何变化,它将生成一个警报。
随着越来越多的用户通过DBT进行数据转换,通过Looker进行自助服务仪表板和报告,蒙特卡洛就像一种安全网,防止错误渗透到数据管线中。这对AutoTrader UK来说是一个真正的好处。DBT工具用于定期运行的数据转换作业自动化,以从源系统提取数据并将其加载到BigQuery中。
AutoTraderUK和许多公司一样,正试图将数据作为决策的前沿和中心。对于公司的财务团队来说尤其如此,他们是数据仓库和BI工具的大用户。
现在每个人都想要基于数据的东西。它必须有一些基于真实世界数据的支持。AutoTrader依靠新技术来帮助它建立一个更加分散的数据资产。
该公司还拥有一个数据分析团队,一旦数据进入BigQuery,他们就会用LookML来塑造数据。一旦编写了LookML,从理论上讲,不太了解数据的人也可以开始使用数据自助服务,可以查询数据,提出问题,了解数据背后的复杂性。他们可以自行提供自己需要的东西,而不必去找分析师。
虽然更多的自动化和更多的抽象应用扩大了潜在用户群体,减轻了数据团队的负担,但让数据偏离轨道或陷入裂缝之中的机会也大大提高。这就是为什么要引入数据可观察性解决方案的原因。
热门跟贴