公司关注数据质量的态度各有不同。一些组织投入了大量精力来整理他们的数据集,确保每个属性旁边都有验证规则和适当的描述。其他则专注于数据层的快速开发,很少关注最终的质量、沿袭和数据治理。
不可否认的是,拒绝将必要的时间和资源用于管理数据的企业将面临财务上的反噬。最近的研究支持了这一点,研究显示,由于数据质量低,年全球收入超过56亿美元的公司平均每年损失4.06亿美元。
糟糕的数据主要影响公司的底线,因为它是表现不佳的商业智能(BI)报告和人工智能模型的根本因素,这些模型是在不准确和不完整的数据上建立或训练的,会产生不可靠的反应,然后企业将其用作重要决策的基础。
因此,组织需要在幕后进行大量工作,才能真正对所掌握的数据充满信心。
技术在进步,但数据稳定
值得记住的是,数据往往比应用程序堆栈的所有其他层都更持久。因此,如果数据架构设计不正确,下游可能会出现问题。这通常源于管理团队设定的激进时间表,因为项目急于实现不切实际的目标,导致结果不尽如人意。
在许多公司中,添加新的数据集仍然是一项非常临时的任务。即使在涉及摄取和分析几TB数据的大型项目中,数据质量的缺乏也经常影响后续的处理水平。例如,令人惊讶的是,数据集经常经历代价高昂的转换过程,甚至没有进行简单的检查来查看列和格式是否一致。
最终,在完成数据项目时,了解数据价值和细致的验证方法将比优先考虑速度产生更大的回报。如果一个组织的数据的关键基础要素到位——这不会在一夜之间发生——任何依赖于这些信息的工作都更有可能带来改善财务业绩的强劲结果。
选择正确解决方案
一个简单的事实是,数据世界已经无法从20年前的地方辨认出来了。然而,在我们有少数数据库提供商之前,现在开发团队可能会从大量可用的数据解决方案中选择一个(研究表明,大约有360种工具可供选择)。
有了大量直观和创新的解决方案,数据专家应该避免自然倾向于坚持使用他们熟悉的工具,并在过去为他们提供了很好的服务。从长远来看,愿意尝试新技术并创建更通用的技术栈可以提高效率。
企业应仔细考虑项目的要求及其可能涵盖的潜在未来领域,并利用这些信息选择适合该工作的数据库产品。专业数据团队也可能非常有价值,对高技能和知识渊博的人员进行大量投资的组织更有可能取得成功。
数据质量支撑着有效的人工智能策略
为什么高质量数据在当今的商业环境中很重要,一个不可或缺的方面是,各行各业的公司都在争相训练和部署经典的机器学习以及GenAI模型。
这些模型往往会使他们遇到的任何问题成倍增加,一些人工智能聊天机器人在训练一组完美的源信息时甚至会产生幻觉。如果数据点不完整、不匹配甚至相互矛盾,GenAI模型将无法从中得出令人满意的结论。
为了防止这种情况发生,数据团队应该分析业务案例和持续数据问题的根源。组织往往试图从战术上解决问题,然后让最初的问题变得越来越大。
在某些时候,需要对项目进行全面分析,具体取决于组织的规模及其影响。这应该包括一个轻量级的审查或更正式的审计,然后实施建议。幸运的是,现代数据治理解决方案可以减轻与这一过程相关的许多痛苦,在许多情况下,根据技术债务的规模,可以使这一过程更加顺利。
增强数据驱动型劳动力的能力
信任和依赖数据洞察的员工工作效率更高,感觉得到更多支持,并推动效率的提高。由数据驱动的决策过程驱动的业务加速是数据成熟组织的真实信号。采用这种方法可以确保数据成为一种资产,而不是一种让企业损失金钱的漏洞。
热门跟贴