增强型全域数据集成产品SimbaX发布 | Simba Notes

奇点云

2025-01-07 10:31 ·浙江

企业在实施数据计算之前需要先完成数据集成的操作，将分散在各个业务系统里的数据集成进统一的数据贴源层。企业往往都会遇到以下内容：

·各类异构数据集成困难，不同类型的数据源不知如何统一管理；

· 业务决策对数据处理的时效要求逐渐变高，传统的离线流批方案无法兼容实时多样的需求场景；

· 大数据量的批处理耗时过长，计算性能和调度窗口都存在瓶颈问题。

针对上述问题，奇点云基于SimbaOS Kernel，为客户提供了增强型的全域数据集成产品SimbaX来解决上述难题。除了支持几十种数据源的常用能力之外，在不久前的StartDT Day数智科技大会上，奇点云CTO王乐珩还为大家介绍了SimbaX的2个重要特性：

特性一，支持数据湖相关的能力。

特性二，支持字段行列处理的能力。

下文编辑自2024数智科技大会SimbaFabric发布

1 SimbaX支持数据湖相关的能力

在制造业的场景里存在大量的半结构化和非结构化的动态数据，每天都要对部分历史数据进行更新操作，这个场景存在2个主要的痛点

· 制造业客户的数据量巨大，从亿级行数据中更新千万级行数据所需要的计算资源是巨大的；

· 此类任务的计算耗时比较长，影响最终分析层数据的计算时效。

数据湖的能力解决了大数据量更新带来的性能问题，只需要处理新增、修改和删除的数据，从而减少了处理时间和存储成本，并且保证了数据的一致性和完整性。

某能源企业使用了我们的数据湖能力后，CPU使用率降低了50%，任务运行时长降低了25%。

2 字段行列处理的能力

行列转换是一个具体的技术点，但是可以帮助用户在ETL的数据转换开发场景中提高效率。

大家可以看到，在SimbaX上对数据同步的作业进行界面维护，完成行列级别的映射的即可。我就不仔细讲了，这个大家有兴趣的后面可以再仔细看。

我们来来仔细地看看这个场景，大家都知道我们分析云，分析云产品的核心的本质是XEI模型。这个模型有非常强大的多主体时序事件分析的能力。如果你想把各种业务系统的数据库，同步到这个XEI的宽表里面去，你就要写很多的脚本进行行列的转化，异常情况的处理，以及枚举值的变化等等。这个ETL操作的开发量还是比较大。

如果使用SimbaX集成工厂，就可以通过简单的页面配置，点选拖拉操作即可完成，基本上就不需要代码来开发了。所以这方面是大幅度提高了生产效率，降低了数据集成场景的开发成本。除此之外，SimbaX也能够降低很多平时运行过程中的资源的消耗。这是SimbaX集成工厂很明显的特性和优点，也有很多客户对集成工厂的需求正在猛烈的爆发阶段。

从数字上体现来看，某零售企业客户使用SimbaX的字段映射能力之后，开发效率提升了300%。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴