企业在实施数据计算之前需要先完成数据集成的操作,将分散在各个业务系统里的数据集成进统一的数据贴源层。企业往往都会遇到以下内容:
·各类异构数据集成困难,不同类型的数据源不知如何统一管理;
· 业务决策对数据处理的时效要求逐渐变高,传统的离线流批方案无法兼容实时多样的需求场景;
· 大数据量的批处理耗时过长,计算性能和调度窗口都存在瓶颈问题。
针对上述问题,奇点云基于SimbaOS Kernel,为客户提供了增强型的全域数据集成产品SimbaX来解决上述难题。除了支持几十种数据源的常用能力之外,在不久前的StartDT Day数智科技大会上,奇点云CTO王乐珩还为大家介绍了SimbaX的2个重要特性:
特性一,支持数据湖相关的能力。
特性二,支持字段行列处理的能力。
下文编辑自2024数智科技大会SimbaFabric发布
1 SimbaX支持数据湖相关的能力
在制造业的场景里存在大量的半结构化和非结构化的动态数据,每天都要对部分历史数据进行更新操作,这个场景存在2个主要的痛点
· 制造业客户的数据量巨大,从亿级行数据中更新千万级行数据所需要的计算资源是巨大的;
· 此类任务的计算耗时比较长,影响最终分析层数据的计算时效。
数据湖的能力解决了大数据量更新带来的性能问题,只需要处理新增、修改和删除的数据,从而减少了处理时间和存储成本,并且保证了数据的一致性和完整性。
某能源企业使用了我们的数据湖能力后,CPU使用率降低了50%,任务运行时长降低了25%。
2 字段行列处理的能力
行列转换是一个具体的技术点,但是可以帮助用户在ETL的数据转换开发场景中提高效率。
大家可以看到,在SimbaX上对数据同步的作业进行界面维护,完成行列级别的映射的即可。我就不仔细讲了,这个大家有兴趣的后面可以再仔细看。
我们来来仔细地看看这个场景,大家都知道我们分析云,分析云产品的核心的本质是XEI模型。这个模型有非常强大的多主体时序事件分析的能力。如果你想把各种业务系统的数据库,同步到这个XEI的宽表里面去,你就要写很多的脚本进行行列的转化,异常情况的处理,以及枚举值的变化等等。这个ETL操作的开发量还是比较大。
如果使用SimbaX集成工厂,就可以通过简单的页面配置,点选拖拉操作即可完成,基本上就不需要代码来开发了。所以这方面是大幅度提高了生产效率,降低了数据集成场景的开发成本。除此之外,SimbaX也能够降低很多平时运行过程中的资源的消耗。这是SimbaX集成工厂很明显的特性和优点,也有很多客户对集成工厂的需求正在猛烈的爆发阶段。
从数字上体现来看,某零售企业客户使用SimbaX的字段映射能力之后,开发效率提升了300%。
热门跟贴