某新能源制造企业基于超融合数据库打造数据湖仓，支撑高速发展｜案例研究|mysql|分布式数据库|数据湖仓|新能源制造|算法|运维

伴随近年来新能源汽车在全球范围内的销量剧增，处于新能源汽车产业链重要位置的国内某头部制造企业也迎来了业务的快速发展。为了提高产能，并降本增效，该企业需要不断加强数字化建设，以支撑全球产品溯源追踪、生产及售后运营分析、设备预测性维护等多项业务。

然而，随着该企业业务规模的迅速扩张，其需要处理的数据规模急剧膨胀，数据类型也比以往更加复杂，导致该企业原先基于 MySQL、Greenplum 构建的数据库系统面临显著的性能和功能瓶颈，也给该企业的业务开展带来以下挑战:

1) 原有数仓集群遭遇性能瓶颈，维护扩容复杂，难以应对业务快速增长需求。

随着业务的快速扩张，企业的数据规模开始快速增长，原有集群的 CPU 使用率长期维持高位运行，导致计算和查询作业长时间排队，致使业务间歇性卡顿，部分大型报表的等待时间甚至超过30分钟，严重影响了业务的运行效率和使用体验。另一方面，原有数仓平台的扩容也需要伴随较长时间的停机等待，此外也不支持数据的分层存储管理，为应对业务增长，原平台就需要不断进行扩容，但这种做法在时间和人力等成本层面都不可持续。

2) 智能制造亟待扩充复杂时序处理及分析能力。

该企业作为大型制造业集团，为满足业务增长需要，也在积极探索智能制造的转型创新，而首要的是对生产装备进行数字化升级，这带来广泛的 IoT 场景需求。在其整体数据结构中，除了由常见的 MES、ERP 系统所产生的关系型数据，还有由数采单元面向设备、物料和流程采集到的时序、GIS 等类型数据，比如涵盖近百个指标的生产制造设备工况数据、已售出产品的运行数据以及历史维修数据等。目前架构中是通过 MySQL 和 Greenplum 来承载时序数据，但 MySQL 及 Greenplum 并不具备专门针对时序场景的强化特性及功能，数据承载力和查询能力都十分有限:

写入性能:无法承载超大设备带来的海量数据写入负载;
写入功能:无法支持动态、乱序、延迟写入，难以适应复杂工况下的数据生产环境；
查询能力:点查询性能有限，没有窗口查询、库内机器学习等能力。

3) 数据量倍数增长，总部中心集群负载压力大

目前，该企业集团在全国拥有数十家分支生产基地，每个生产基地的产线系统都需要高性能及可靠稳定的数据管理系统。面向未来，预期整个集团将持续以倍数级扩充产能，产线数据量将翻倍增长，对数据管理的承载力、效率、成本和易用性都提出了更高标准。

目前所有数据直接进入总部，对总部集群造成很大负载压力。除了持续扩容外，在不增加太多运维复杂度的基础上，客户迫切希望建立一套总分结合的“总部(云) +工厂 (边)” 协同架构，在增强整体数据承载能力的同时，也优化各子公司的数据平台能力，实现对整体数据管理与治理能力的升级。

01基于超融合数据库，实现一套系统满足企业多种类型数据存储与处理需求

为了满足对大规模、多源异构数据的存储与处理需求，该企业需要引入新的数据基座来替换原先的 MySQL、Greenplum 数据库。在此过程中，该企业考虑过Hadoop 技术栈，但基于 Hadoop 技术栈满足业务需求需要同时构建非常复杂的开发和运维体系，成本过高。

由于 YMatrix 超融合数据库具备高性能、支持多种数据类型、运维简单等优势，便成为了该企业的的最终选择。

YMatrix 成立于 2020 年，是一家创新型基础软件公司，致力于物联网时代新一代数据基础设施软件的研发，并提供相关产品、解决方案及一站式商业服务。公司在业界率先提出超融合数据库理念，并发布了 YMatrix 超融合数据库，基于独创的多微内核开放架构，在单一数据库之上，实现多模态数据的融通管理，及全场景查询分析的统一支持。YMatrix 超融合数据库可面向物联网应用、金融、工业互联网、智能运维、智慧城市、智能家居、车联网等场景，提供架构简洁、功能丰富的数据基础设施，并已在多家行业头部公司成功实现商业化落地。

图1：某新能源头部制造企业基于超融合数据库打造的“数据湖仓平台”

YMatrix 超融合数据库在该企业内替代了原先的 MySQL、Greenplum 等数据库,在支持多种类型数据的存储、汇集与管理的同时，通过全面的功能承接了各类业务需求。具体而言，YMatrix 超融合数据库的以下功能特性解决了该企业此前存在的各种问题:

1)支持多种数据。由 YMatrix 超融合数据库承建数据湖仓平台，对接产线 MES系统、ERP 系统及各类型生产设备数采系统等，将 TP 业务数据、时序数据、GIS 数据、JSON 文本数据，以及过去的历史数据等等多种数据，统一进行写入、存储、管理，支持数据乱序、延迟写入，支持 ACID 以确保数据完整性，

2)提供统一的查询。YMatrix 超融合数据库通过标准SQL提供多类型数据查询，在数据湖内实现数据的跨类型联合分析，而无需再并行建设专门的技术栈;

3)支持库内机器学习。YMatrix 超融合数据库支持库内机器学习建模，可代替 Flink+Spark，使算法建模及计算在 YMatrix集群内实现，无需大规模的数据 ETL 过程，大幅简化系统架构，且性能大幅提升，算法分析工作效率提升 10 倍;

4)较高的查询性能。YMatrix 超融合数据库针对写入和分析等重点领域进行了多达 138 项深度的指令级的优化，能够在单表查询、多表关联分析、时序数据查询等常用场景上获得比主流专用数据库更高的性能。

5)简化运维。YMatrix 超融合数据库技术架构简化灵活，一套数据库体系可适用多种业务场景，运维人员需要管理的技术栈变少，因此从根源上降低了其运维复杂度。同时，YMatrix 超融合数据库提供大量图形化及自动化的运维能力，包括: 在线扩容、自动数据平衡、数据生命周期管理、运维监控等，帮助用户降低操作门槛、获得更好的使用体验以及更加自动化的作业能力。

此外，为了降低总部中心集群负载压力，YMatrix 为该企业建设了边缘数仓，即在分支工厂部署独立数仓平台，承载工厂的 MES、ERP、PLM 等各系统数据，完成这些生产数据在本级的数据归集，同时进行预处理查询分析，筛选出符合总部需要的数据后再上传总部集群。新构建的“总部(云) + 工厂（边）”协同架构，在强化本地数据就近处理的能力之上，有效降低了集团集群的负载，为后期业务的长期稳定运行及良性扩展奠定架构基础。

02超融合数据库落地后的价值与效果

第一，性能大幅提升，为应对业务量大规模扩张奠定基础。在使用 YMatrix 超融合数据库后，该企业解决了原有集群性能不足、扩容服务器耗时长、报表查询等待过久等各项问题，查询耗时最高缩短79%，为平台支撑的各项业务服务体验提供充沛的性能支持。

第二，为数智化创新提供新一代通用数据基座，并提供更友好的使用体验，大幅降低运维复杂度。通过YMatrix 超融合数据库，支持多模态数据的全场景查询分析需求，能够服务企业级用户未来 5-10 年可能存在的需求，帮助该企业避免了产品叠加或技术架构反复调整带来的技术风险和不必要成本。同时，YMatrix 超融合数据库通过数据超融合能力大幅精简了系统架构，并供大量图形化及自动化的运维能力，从而降低了数据库的运维复杂度，让用户工作更加专注，作业更加高效。

第三，数据管理成本获得有效控制，同时降低总部集群的压力。YMatrix 超融合数据库在为大数据平台带来了上述优化与新功能的同时，在保证性能满足需求的前提下，使得该企业每年在资源上的成本开销减少了至少30%。同时，通过搭建更科学经济的“总部(云) +工厂 (边) ”协同架构，减少数据传输成本的同时，降低因组织结构庞大、产能持续壮大给总部集群带来的压力。

03项目经验总结

当前，中国正在从“制造大国”向“制造强国”转型，与此同时，一批代表着战略新兴行业方向的制造业企业在市场需求以及政策推动下，正处在高速发展过程中。为了实现这样的目标，数智化在其中将会起到关键支撑作用。我们认为，上述新能源头部制造企业与 YMatrix 合作的案例，可以为同样处于快速发展阶段的制造业企业带来以下借鉴意义:

第一，数据基座的选型需要超前考虑中长期的业务发展需求。随着企业业务的快速发展，企业内部数据量必然迅速增长，数据类型也将变得更加复杂。由于数据库等基础设施的迁移是项成本非常高昂的工作，企业在选型时需要充分评估未来 5-10 年的业务需求，选择能够应对中长期数据存储和处理需求的数据基座。

第二，为避免传统方案复杂的开发和运维，企业可以考虑创新性的超融合数据库。尽管市场上存在一些如 Hadoop 等大数据方案能够满足企业各类复杂的数据存储和处理需求，但面对企业复杂的需求，其开发和运维的过程也非常繁琐。超融合数据库在简化系统架构的同时，具备支持多种数据类型、性能高、运维简单等优势，是处于快速发展阶段的企业非常理想的选择。