打开网易新闻 查看精彩图片

11月28日,我们邀请到StartDT合伙人、CTO地雷和StartDT资深战略咨询专家何夕,围绕“为什么数据平台需要敏捷版”这个话题,向大家汇报了DataSimba敏捷版这半年来的最新进展,并带来了详细的产品解读。

敏捷版支持StarRocks、ClickHouse和Apache Doris等新型MPP数据库,还支持Flink和Kafka等技术栈增购包,不仅能够处理离线数据分析、即席查询任务,还能满足客户实时写入等需要。

如果您数据量在3TB以下、节点数量在3-9个、产品总预算不超过50万,存在集成、研发、运维、服务、治理等任何数据需求,就请一起阅读下去吧!

1 DataSimba敏捷版产品解读

现在的数据技术栈是比较复杂的,其集群规模大,运维和数据治理成本高。此前我们服务的客户,大多数都是数据量达到PB级别,拥有百万预算,且数据团队相对完整的头部客户。

随着数字化转型效果明显增强,越来越多的企业重视数据分析并进行立项,这其中就包括数据量较小、预算有限、团队规模欠完备的企业。对他们来说,大型全家桶型的传统数据平台就显得有些超配了。为此,DataSimba推出敏捷版,积极响应中小企业,以及大型企业中一些独立的部门和团队的需求,也就是腰部客户的需求。

我们优化掉了许多传统大数据技术栈中的复杂组件,使得敏捷版可以在最小3个节点的集群环境中运行,并且经过了RAS压力测试(点击了解RAS),确保能够满足生产环境的要求。

DataSimba敏捷版支持StarRocks、ClickHouse和Apache Doris等新型MPP数据库,能够处理离线数据分析和即席查询任务。我们还支持Flink和Kafka等技术栈增购包,满足客户实时写入需求。敏捷版能够满足多样化的数据场景需求,大大简化了部署和运维的复杂度,同时保持了高效的数据处理能力。

此外,为了响应客户的强烈需求,在标准接口方面,除了已有的北向对象接口外,今年会逐渐开放南向接口,包括引擎对接、任务调度、用户对接、安全审计,元数据、外表存储接口等,以降低集成难度,提供更灵活的对接方式。

值得注意的是,随着企业数据量增多和业务发展,可能需要增加引擎以适应不同计算需求。因此,我们建议客户提前统一数据存储格式,打开数据湖开关,如Hudi或Iceberg等,以便降低未来数据迁移的难度。

最后,DataSimba敏捷版与标准版的主要区别在于底层引擎和技术栈的选择,而在功能层面上二者一致,即都能够满足客户集成、研发、运维、服务、治理的全链路需求。因此,对于数据量达到PB级及以上的大型客户我们推荐标准版。而数据量适中的客户,敏捷版就是您的性价比之选。

打开网易新闻 查看精彩图片

2 为什么数据平台需要敏捷版?

2.1 DataSimba敏捷版基于市场需求明确客户画像

此前,我们进行了深入的市场调研和用户访谈,发现随着市场环境的变化,DataSimba的客户群体更加丰富了,需求也更加多样化。

首先,越来越多腰部客户开始重视管理数据,他们倾向于业务分析而非复杂的大数据技术栈运维,需要易于使用、维护简便的产品,其中不少客户也有建立数据仓库或数据平台的需求。其次,由于Teradata等国际厂商退出中国市场,许多传统数仓用户正在寻找国产替代。这类客户通常有稳定的数据量增长,并寻求数据迁移和维护。另外,调研发现,明确表示不需要实时计算功能和强烈要求实时计算的客群比例近乎一致。客户期望产品提供“搭积木”的功能,灵活满足当前及未来的发展需求。

DataSimba敏捷版基于调研结果不断调整,目前不仅能够支持StarRocks等新MPP引擎,确保高性能的数据处理能力,还降低了部署、使用和集成的难度,帮助腰部客户轻松操作和管理。我们支持客户通过“增购包”的形式逐步投入资源,按需扩展功能,确保可以平滑升级至更高级别的服务。

敏捷版的客户画像也很明确,即数据量通常在3TB以下;节点数量在3-9个(超过9个就要使用基于Hadoop的大数据平台,比如DataSimba标准版);产品总预算不超过50万;缺乏资深数据团队运维大型数据集群;需要易于部署、使用简单且具有良好扩展性的解决方案的腰部客户。可以说,只要是数据量较小、预算较少,且想要快速产出业务成果的客户都可以尝试DataSimba敏捷版。

2.2 DataSimba敏捷版和标准版均是主力产品

DataSimba敏捷版和标准版的差异主要体现在它们各自针对的不同客户场景和技术实现上,而不是简单的高低配置或价格体系上的区别。两者都是专门为解决特定类型的客户需求而设计的产品版本,不存在主次关系。

标准版主要面向头部客户或大型企业的平台需求,能够提供复杂和全面的功能集群以满足其多样化的数据处理需要,并给予数据团队更多的专业调整空间,以实现高度定制化的配置和优化。

敏捷版使用单一的新型MPP引擎,简化了技术栈,降低了运维难度和成本,主要面向腰部客户的平台需求。由于敏捷版优化了调度机制和资源利用效率,尽管其规模较小,但性能表现优异,某些情况下甚至可能超过标准版。另外,敏捷版更加注重自动化配置,使得非专业人员也能轻松操作。

打开网易新闻 查看精彩图片

2.3 DataSimba敏捷版具备灵活扩展的升级路径

客户选择了DataSimba敏捷版后,未来的发展路径可以根据其业务增长和技术需求逐步扩展和升级。如果客户的节点数超过9个或者单一MPP引擎无法满足复杂需求时,可以选择通过增加引擎、功能和服务来增强系统能力,而不必将敏捷版铲平。

在处理大规模原始数据的场景中,客户可在引入Hive、Spark等大数据引擎进行ETL处理,并保留StarRocks、ClickHouses或Apache Doris等MPP引擎用于数据分析和即席查询等需求。当客户需要增加实时处理能力时,也可以增购实时计算包。此外,DataSimba还提供了细化的服务增购选项,包括单次服务、VIP运维服务等。

这种渐进式的升级过程类似于登山图所描绘的成长路径,客户从数仓优化逐渐发展为全面的数据平台,并基于此开展各项应用。最终,敏捷版可能会被DIY成一个功能完备的标准版系统,且整个过程是灵活的、可定制的,帮助客户实现从简单到复杂的全面数智化转型。

打开网易新闻 查看精彩图片

2.4 DataSimba敏捷版为AI开发搭建平台

作为中立安全、稳定易用的数据云平台,DataSimba支持多云、多引擎、多数据源,以及不同的服务器、计算框架和GPU集群。我们还具备统一的底层基础设施,以及综合调度、安全隔离等功能,能够在集群内部进行数据分析,确保了数据安全和资源的有效利用,能够为企业开发AI技术保驾护航。

如果数据团队或者DataSimba敏捷版客户想要利用数据平台进行AI应用或创新,我们建议可以在两方面发力:一是数据分析,二是数据预处理。特别是对于那些历史上积累的大量半结构化或非结构化的数据,利用大模型来读取并整理成结构化表格是一个非常可行的方向。

值得注意的是,无论是AI应用还是大模型训练,干净的、高质量的数据输入是必不可少的前提。同时,数据安全和隐私保护也不容忽视,在不损害信息安全的基础上使用提效工具才能有效地促进业务发展。