Monte Carlo在数据可观测性领域声名鹊起,它使用机器学习和其他统计方法来识别隐藏在大数据中的质量和可靠性问题。通过本周在IMPACT 2024活动期间进行的更新,该公司正在采用生成式人工智能(GenAI),以帮助其将数据可观察性能力提升到一个新的水平。

打开网易新闻 查看精彩图片

当涉及到数据可观察性,或任何类型的IT可观察性准则时,没有灵丹妙药(或机器学习模型)可以检测到数据可能出现的所有潜在问题。事情可能会偏离正轨,有很多可能的方式,工程师需要知道他们在寻找什么,以便构建自动化数据可观察性过程的规则。

这就是Monte Carlo宣布的新的GenAI监测建议可以发挥作用的地方。该公司正在使用大型语言模型(LLM)来搜索客户数据库中数据的各种使用方式,然后推荐一些特定的监视器或数据质量规则来监视它们。

其工作原理是:在Monte Carlo平台的数据分析器组件中,样本数据被输入LLM,以分析数据库的使用方式,特别是数据库列之间的关系。LLM使用此示例以及其他元数据来构建对实际数据库使用情况的上下文理解。

Monte Carlo联合创始人兼首席技术官Lior Gavish表示,虽然经典的机器学习模型在检测数据中的异常方面表现良好,如表新鲜度和体积问题,但LLM擅长检测数据中使用传统机器学习很难发现的模式。

“GenAI的优势在于语义理解,”Gavish说,“例如,它可以分析SQL查询模式,了解字段在生产中的实际使用方式,并确定字段之间的逻辑关系(比如确保‘start_date’总是早于‘end_date’)。这种语义理解能力超出了传统ML/DL方法的可能范围。”

打开网易新闻 查看精彩图片

新功能将使技术和非技术员工更容易制定数据质量规则。Monte Carlo以职业棒球队的数据分析师为例,快速为“投球历史”表创建规则。“pitch_type”列(快球、曲线球等)与投球速度之间显然存在关系。该公司表示,借助GenAI,Monte Carlo可以根据这两列之间的关系历史自动推荐有意义的数据质量规则,即“快球”的投球速度应大于80英里/小时。

正如Monte Carlo的例子所示,数据中隐藏着复杂的关系,传统的机器学习模型很难梳理出来。通过依靠LLM的类人理解技能,Monte Carlo可以开始挖掘那些难以找到的数据关系,以找到可接受的数据值范围,这是它带来的真正好处。

据Gavish介绍,Monte Carlo使用的是在AWS中运行的Anthropic Claude 3.5 Sonnet/Haiku模型。为了尽量减少幻觉,该公司实施了一种混合方法,在向用户呈现之前,根据实际采样数据验证LLM建议。他说,这项服务是完全可配置的,如果用户愿意,可以关闭它。

Monte Carlo正在使用LLM来自动识别人类会立即发现的数据字段之间的关系,例如音调类型和速度。

由于其像人类一样掌握语义含义并生成准确响应的能力,GenAI技术有可能改变许多高度依赖人类感知的数据管理任务,包括数据质量管理和可观察性。然而,并不总是清楚这一切将如何结合在一起。Monte Carlo过去曾谈到其数据可观察性软件如何帮助确保包括检索增强生成(RAG)工作流程在内的GenAI应用程序能够获得高质量的数据。通过本周的公告,该公司表明GenAI可以在数据可观察性过程中发挥作用。

Monte Carlo首席执行官兼联合创始人Barr Moses在一份新闻稿中表示:“我们看到了一个机会,可以将真正的客户需求与新的、令人兴奋的生成式人工智能技术相结合,为他们提供一种快速构建、部署和实施数据质量规则的方法,这将最终提高他们最重要的数据和人工智能产品的可靠性。”。

Monte Carlo在本周举行的IMACT 2024数据观测峰会上对其数据观测平台进行了其他一些增强。首先,它推出了一个新的数据运营仪表板,旨在帮助客户跟踪他们的数据质量计划。根据Gavish的说法,新的仪表板提供了一个从单个窗格集中查看各种数据可观察性的视图。

Gavish说:“数据操作仪表板为数据团队提供了可扫描的数据,包括事件发生的位置、持续的时间以及事件所有者在管理自己职权范围内的事件方面做得如何。”。“利用仪表板,数据负责人可以识别事件热点、流程采用中的失误、团队内部未达到事件管理标准的领域以及其他运营改进领域。”

打开网易新闻 查看精彩图片

Monte Carlo还加强了对主要云平台的支持,包括微软Azure数据工厂、Informatica和Rancher工作流。Gavish说,虽然该公司以前可以检测到在这些(和其他)云平台上运行的数据管道的问题,但现在它可以完全了解这些供应商系统上运行的管道故障、沿袭和管道性能。“这些数据管道以及它们之间的集成可能会失败,从而导致一连串的数据质量问题。”

“数据工程师被多个工具的警报淹没,难以将管道与它们影响的数据表相关联,并且无法了解管道故障是如何造成数据异常的。通过Monte Carlo的端到端数据可观察性平台,数据团队现在可以完全了解每个Azure数据工厂、Informatica或Databricks工作流作业如何与表、仪表板和报告等下游资产交互。”