2023 年数据和 AI 趋势报告|ai趋势报告|工作流|数据仓库

制定互连数据策略需了解的五大趋势

一、打破数据孤岛

到 2026 年，82% 的组织希望在其云数据平台中紧密集成实现完整数据和 AI 工作流所需的全部功能。

统一的数据云提供了一个平台，用于支持数据生命周期的每一个阶段。数据库、数据仓库、数据湖、流式传输、 BI、AI 和机器学习全部位于一个预配置的通用基础架构中，可帮助组织实现无缝协作。

01 提升数据使用效率并降低使用门槛

02 缩短决策和开发周期

03 改善客户体验

组织开始意识到，孤立的数据存储和数据仓库策略已经跟不上新时代的需求。这一点也不意外，因为设备和应用每天生成的数据量十分惊人。组织需要找到更好的方法存储、管理、分析和治理所有数据，同时减少数据孤岛和冗余系统导致的额外工作、成本以及相互冲突的数据洞见。

开发者、IT 管理员、安全分析师和业务团队应该将自己的技能运用在开发创新应用、将服务尽快推向市场上，而不是耗费在追踪数据上。他们必须知道当前有什么数据及数据所在位置，并能够轻松访问和分析最新数据。有了统一的数据云，所有这一切都成为可能。

这个趋势最核心的一点是，统一的数据云可将数据和洞见融入到数字体验和工作流中。如此一来，用户就可以在需要时获得正确的信息，尽可能取得最佳成果。

各行业如何利用统一的数据云

零售

越来越多的零售商正在将其所有数据整合到单一平台，并从中获得所需的客户数据洞见，以便为所有消费者接触点提供独特的个性化体验，提升所有渠道的客户忠诚度和转化率。

制造

制造商正在利用统一的数据平台，将孤立的机器和系统连接起来，让他们的数据变得更容易使用。这不仅有助于加强他们与供应商之间的联系，还可以让他们迅速采取行动，防止送货延迟。

金融服务

零售银行和保险公司正在使用以隐私保护和客户为中心的数据解决方案，实现更出色的个性化、更有效的市场分析和直接面向客户的定制化体验。

统一数据云可以帮助组织实现哪些成果？

如果运营和分析系统彼此分离，组织只能通过艰难拼凑不同的解决方案来构建数据驱动的智能应用。为了满足客户期望，提供“始终在线”的数字体验，运营和分析系统需要紧密集成，在近乎实时的情况下处理同一数据。

二、迈入开放数据生态新时代

78% 的高管认为，使用外部数据是企业需要具备的一种关键能力。

为了确保技术选择的灵活性以及能够重复使用代码和基于标准的服务，越来越多的组织正在采用开源软件和开放式 API。

01 将数据与您自己选择的技术集成，避免受制于特定供应商

02 提高现有投资的投资回报率

03 缩短开发周期

随着组织对数据生态系统灵活性的要求不断提高，关于开放标准、数据集成和技术选择的讨论也达到新高度。组织认识到，数据既是数字创新的核心，也是释放 AI 潜力的关键。但现实问题是，数据正以惊人的速度激增，却被限制在由不同解决方案和封闭云所构成的新孤岛中。

构建开放的多云数据生态系统，充分释放数据的力量，则是改善以上所有问题的有效方法。这种方法不仅可以缩短上市期，还可以提高投资回报率。更重要的是，这种方法还可以让组织更具竞争力。想象一下，参与这个数据生态系统的所有员工、客户和合作伙伴都将是贡献者，而不是旁观者。

组织希望自由构建数据云，并在其中包含来自任何源或云的任何形式的数据。他们希望采用最能满足其特定需求的技术，并在加快创新的同时，不必担心技术孤岛和债务问题。而最终的实现方法，就是为所有这些公司释放数据和 AI 的力量。

利用开放系统实现数据移动和多云分析

过去，组织通过部署单独系统和工具来解决特定问题，导致很多数据被存储在不同的平台和公有云中。由于这些数据往往处于孤立状态，组织很难从所有这些数据中获得分析洞见。

通过采用开放标准和开放架构，公司可以根据需要在各平台之间自由移动数据，以支持工作流、数据分析和数据创收，避免受制于特定供应商和陷入数据孤岛。例如，公司可以轻松移动存储在任何基于 SQL 的关系型数据库（例如 PostgreSQL）中的数据，并将这些数据与任何其他基于 SQL 的数据库共享。利用集成了开放式 API 且符合 REST 架构设计的系统，公司可以轻松使用和共享来自内部和外部源的数据。同时，组织还可以使用开放标准和开放架构分析源头数据，将数据移动和出站流量产生的费用降至最低。

拥抱开源技术

研究表明，开源软件的采用率正在增加，许可型企业软件的采用率则在降低。

开源软件在数据生态系统中发挥着关键作用：

• 为加快开发速度和降低成本，组织正在使用预构建、预测试的开源服务和应用（包括 PostgreSQL、Kafka、TensorFlow、PyTorch、PrestoJanusGraph 和 Apache 项目）。例如，组织利用开源技术构建数据湖仓一体、使用处理引擎（如 ApacheSpark）以开放格式（如 Apache Parquet）存储数据，并采用开放式框架（如 Apache Iceberg 和 Delta）。

• 借助云服务提供商的“开源即服务”解决方案，公司可以在自由选择开源软件的同时，受益于专属工程资源的支持和技术专长。

拥抱更多数据

许多组织正在利用公开可用的数据集（如天气、趋势和位置数据），来获取有价值的数据洞见和开发创收型应用。如今，有 75% 的组织正在将位置数据用于各种业务职能和流程，包括供应链、公共交通和个性化客户体验等。

公共数据集可以按需使用，没有管理和维护成本，其准确性也已通过社区审核。此外，如果团队可以通过基于开放标准的 API 访问公共数据集，遵循一致的数据使用和注入标准，他们就能进一步加快数据流水线开发速度。

三、拥抱 AI 发展转折点

到 2025 年，至少 90% 的新企业应用将包含嵌入式 AI 功能。

如今，AI 驱动的体验已经融入人们的日常生活中。为适应这一趋势，组织需要找到更容易的方法，让更多人轻松使用 AI 和机器学习技术。

01 从任意规模的数据中寻找规律、发掘数据洞见

02 精准而规模化地解决问题

03 普及机器学习技术和 AI 的使用

AI 发展的转折点已经来临。无论人们是否意识到，AI 驱动的应用已经融入人们的日常生活中。社交媒体平台、语音助理和驾驶服务都是典型示例。组织纷纷采用 AI 和机器学习工具及技术，因为这样，组织就可以从现有数据中提取更多信息，并精准而规模化地解决实际问题。

统一性是新兴 AI 采用策略中最重要的方面。在一年前，公司还在考虑将数据云和 AI 云作为单独实体来管理。但正如我们在其他趋势中看到的，这种分离或孤立的策略会带来很多障碍。

如今，数据科学家、分析师、开发者和其他机器学习创作者都在协同工作。他们都希望拥有一个单一界面，通过一个统一门户获取所需工具、数据和洞见。

弥合机器学习技能差距

由于大多数公司都没有聘请帮助实现 AI/机器学习目标的数据科学家，因此，更多组织选择依靠“草根数据科学家”，借助预训练模型或低代码训练方法来开发机器学习模型。其中有 81% 的组织表示，引入更多草根数据科学家可大幅提高他们将高级分析技术应用于更多项目的能力。

各行业组织通过在员工中普及 AI/机器学习，持续推进运营转型。例如，零售商积极利用 AI/机器学习实现以下目标：

•向买家提供个性化建议

•通过预测买家需求，确保商品库存状况

•通过预测客户流失，对相应客户给予特别关注

金融服务和保险公司利用 AI/机器学习实现以下目标：

•获得高级欺诈检测能力

•对文档进行分类和翻译

•分析交易情况和检测异常

电信组织通过部署 AI/机器学习实现以下目标：

•实现联络中心自动化，采用虚拟客服帮助来电者解答常见问题

•让人工客服腾出更多时间处理复杂或紧急事务

•自动监控手机基站

•识别有价值的数据趋势和预测

AI/机器学习采用建议

•即使您对数据科学十分了解，也不一定想从头开始一切工作。利用支持定制的模板、模型和其他可直接使用的资产，让它们帮助您完成 80% 的工作，使您能够集中精力处理关键事务。

•跟踪模型非常重要，有助于您了解谁在什么时间训练了模型，以及数据来自何处等信息。

•构建的模型不一定要强大无比，只要它能更出色地完成现有任务就够了。

•从见效快的小项目着手。使用机器学习将搜索点击率提高 3% 到 4% 看似微不足道，但这种小项目实际上可能会带来数百万美元的额外收入。

•成功的 AI 解决方案从一开始就将可靠性和稳定性融入模型中。

四、随时随地融入数据洞见

未来几年，75% 的组织期望用上传统 BI 软件力所不及、能够为决策助力的新功能。

重新构想 BI/分析策略及应用，从而改进决策流程、客户服务、产品开发并增加收入。

01 改进决策流程

02 快速开拓新的收入来源

03 提升获客率和留存率

多年来，组织在数据和分析方面投入巨大，但 BI 依然难以在组织中得到广泛普及。原因之一是组织对报告和工具本身缺乏信任。传统报告提供的数据经常不一致或不准确，因为这些报告是使用过时的数据副本、孤立的工具和不标准的计算方式创建的。BI 采用速度慢的另一个原因是，其输出通常依赖于一个共享的信息中心，提供的也都是一些宽泛的指标，而不是为特定用户量身定制的清晰而实用的信息。

为了加快 BI 采用步伐，组织正在改变他们对 BI 的期望，包括传统的信息中心形式。他们正在探索不同的解决方案，以提供富含背景信息的数据体验，让用户随时随地获取所需信息。这样的数据体验将覆盖所有用户，而不仅限于那些熟悉数据和 SQL 的数据分析师。组织正在为业务决策者提供必要的工具，使他们能够将需要的数据洞见融入日常工作流中。

随着组织重新构想 BI 和采用更加多样的解决方案，他们需要确保从一致的数据指标和定义中获取实时的数据洞见，以保证事实的唯一性。在衡量 BI 投资回报率方面，相较于评估用户登录信息中心的次数，组织更应该评估的是通过改进决策带来的成果，例如收入得到增加、供应链得到优化，以及产品开发创新能力得到增强。

不只是 KPI

BI 在不断演进。有远见的组织正在摒弃那些以信息中心为焦点的传统模型，转向以行动为中心的 BI 模式，让数据洞见覆盖更多环境中的更多人群，以支持更加丰富的工作流类型。

除了识别潜在趋势以外，组织还使用 BI 和数据分析来检测数据异常，发现潜

在业务问题。这些数据洞见不一定涉及机器学习或 AI。但值得注意的是，87% 的组织认为预测模型的开发和部署离不开 BI 和分析软件的支持。在这些用例中，BI 和分析软件通过将数据注入模型，向用户提供实时的数据洞见，即使在以毫秒计数的动态环境（如数字广告出价）中也毫无问题。

将 BI 嵌入企业应用（87% 的组织认为这项功能很重要）等其他用例则有助于

扩大受众范围。这些用例非常重要，因为 79% 的组织希望利用企业应用内置

的 BI 和分析功能覆盖更广泛的内部受众，66% 的组织则期望用其覆盖更多外部用户。

通过将分析功能嵌入面向客户的应用，组织还可以提升服务水平，开拓新的收入来源。组织正在利用数据打造深度个性化的全渠道体验，优化库存和产品植入决策，以及提高供应链的可见性和效率，所有这一切都由现代商业智能平台提供支持。

建议：通过语义层构建一致的可信指标

语义层位于数据之上，控制着用户可以看到什么数据。语义层还负责定义数据，并将关系映射到相关数据。为降低复杂性，组织应为所有用户提供一致的数据洞见、提升数据探索能力，构建有利于人员互动的统一语义层，而不仅仅是提供原始数据。为提高效率，人们只需看到与自己相关的数据。此外，他们还应了解这些数据的准确性和时效性。

五、了解未知数据

如今，77% 的组织希望提高数据分类能力，并加强数据安全和隐私控制。

组织希望及时发现和降低未知数据带来的监管和合规风险。

01 提升效率和协作能力

02 增强客户信任度

03 降低违规和罚款风险

数据价值连城，对公司保持竞争力起着重要作用。但是，在公司利用支持客户、合作伙伴、供应商和员工的更多渠道，收集大量结构化和非结构化数据的同时，他们很少意识到所有这些数据带来的风险。

如果您不知道自己拥有什么数据，就无法保护这些数据，也无从了解可能面临什么安全风险，或需要采取什么样的安全措施。

如果您在数据库中创建了一个表格，其中包含诸如患者数据这样的个人身份信息（PII），那么就能知道其中会涉及什么类型的数据、如何保护这些数据，以及如何让这些数据保持合规。但现代企业需要从众多来源收集和复制大量数据（特别是非结构化数据），而且他们发现，通过手动查找、扫描和分类每一个数据集来降低风险并不现实。

来自聊天应用或日志文件的非结构化数据可能会令组织非常头疼，特别是在这些数据意外包含个人身份信息等敏感数据时。客户支持记录就是一个例子，因为您永远无法预测客户会提交什么信息。客户在与客服人员聊天时可能会输入： “我没有拿到药。这是我的名字、需要的药物和我的社会保障号。 ”现在，这些敏感的个人身份信息数据就存储在您的某个数据库中。您可能既没有对其进行适当分类，也没有实施有效的保护。

确保数据可见性

确保所有数据的可见性是实施数据风险管理最关键的第一步。这包括了解所有数据注入流水线和存储孤岛。

对数据分类

知道数据所在位置后，需要对所有这些数据进行分类。准确性是关键。由于数

据分类通常无法手动完成，组织正在利用机器学习和业务自动化工具，不断增

强现有技能和资源。我们在趋势 4 中已经看到，90% 的公司也在利用 BI 和分

析功能检测数据异常。通过这种方式进行的异常值检测，可以标记出任何不符合表格或文件存储区用途的数据类型。

实施一致的控制

拥有可见数据并对其进行分类后，就可以实施自动化控制，以降低存储和共享数据带来的风险。例如，如果担心客户在与客服代表互动时提供个人身份信息等敏感数据，可以通过配置自动化流程来自动执行下面这些步骤：

•在将事务信息存储到系统前，隐去客户的个人身份信息

•存储所有事务数据，但如果事务数据离开存储它的系统，则对其中的个人身份信息进行词元化处理

•存储所有事务数据，但阻止将其移动到某些国家/地区