关注留言点赞,带你了解最流行的软件开发知识与最新科技行业趋势。

打开网易新闻 查看精彩图片

本文详细介绍了通过 AWS Certified Data Analytics – Specialty 认证所需的 AWS Data Analytics 服务知识。

免责声明: 博客中表达的所有观点和意见仅属于作者,不一定属于作者的雇主或任何其他团体或个人。本文不为任何课程或培训平台做宣传。本文的唯一目的是帮助 AWS 社区顺利通过这一高难度考试。此外,本文基于我的考试经验,可能与任何其他人的考试经验不同。

我在 2022 年 10 月通过了 AWS Certified Data Analytics – Specialty 考试。通过这篇文章,我想分享我的经验以及我为通过此认证考试所做的准备工作。我不想分享您可以从 AWS 认证页面获得的详细信息;相反,我会分享您通过考试需要了解的主题以及您在考试期间可能遇到的问题类型。

我为这次考试参加的课程和模拟考试

您可以学习任何课程并参加涵盖AWS Certification Exam Guide中所有主题的任何模拟考试。以下只是我在准备期间参加的课程和模拟考试的清单。但请随意使用任何其他课程。

  1. 我参加了 AWS Certified Data Analytics Specialty 2022 - 实践! 由 Stephane Maarek 和 Frank Kane 在 Udemy 上发布。
  2. 我参加了几次模拟考试。这些解释消除了很多疑虑。以下是我参加的模拟考试列表。您可能不需要全部参加,但我强烈建议您在考试前至少参加一门考试并评估您的知识。
    1. 模拟考试 | Stephane Maarek 和 Abhishek Singh 的AWS 认证数据分析专家
    2. Jon Bonso 的AWS 认证数据分析专业模拟考试
    3. AWS Certified Data Analytics - Specialty (DAS-C01) Certification Preparation for AWS by Stephen Cole(我只完成了知识检查和考试准备部分)
  3. 我还完成了AWS Skill Builder 提供的自定进度的在线免费数字培训(免费内容)。AWS 内容提供了服务之间的良好比较,而且是免费的。
  4. 我已经准备了一份我经常参考的课程和模拟考试的个人笔记。我强烈建议创建一个简单的笔记,你可以用它来记录你不太了解的细节,以及你可以随时参考的东西,尤其是在考试前。
通过考试所需的 AWS 服务知识

一般来说,您需要了解考试指南中提到的不同服务的高层次、它们的用例和区别。您将被要求根据问题中的要求选择一项服务。了解每个消费者和提供者,并确保寻找诸如“成本效益”、“较少管理”、“有保证的交付”、“高可用性”等关键字。在下面的部分中,我整合了重要的根据我的考试经验提供服务。

领域 1:集合

  1. 运动家庭
    1. 您需要熟悉 Kinesis Data Streams(KDS) 和 Kinesis Data Firehose(KDF)。您会在 Kinesis 中找到许多问题/答案。了解两者的内部工作原理、安全性、扩展性以及不同的消费者和生产者。了解什么是 KDS 的增强型扇出。要知道 KDS 的关键特性是实时、保留、重播和保证排序。但 KDF 接近实时(最少 60 秒延迟),它是无服务器的,具有转换功能,可以执行格式转换,并提供批处理,但没有保留。
    2. 对 Kinesis Data Analytics (KDA) 有较高的了解,并且知道它可以RANDOM_CUT_FOREST用于流数据的异常检测。
    3. 期待有关使用 KDS、KDF 和Lambda的 CloudWatch 日志订阅的问题。
  2. 其他 AWS 收集服务
    1. 您需要了解SQS(简单队列服务)、MSK(Apache Kafka 托管流,高级)、数据库迁移服务(DMS,高级)、SNS(简单通知服务,高级)和 AWS Snow Family(高级) ) 以及其他收集服务。了解 KDS vs. KDF vs. SQS vs. MSK 的区别和用例(您将被要求根据问题场景选择正确的收集服务)。
领域 2:存储和数据管理

预计本部分的大部分问题都是关于 S3(您需要了解 S3、VPC、DynamoDB 和 EC2 才能通过任何 AWS 考试)和 Redshift。您需要非常了解这两种服务才能在本节中获得高分。充分了解通常具有以下特征的操作数据存储(RDS、Dynamo、Elastic Cache、Neptune)——数据以基于行的格式存储、较小的计算大小、低延迟、高吞吐量、高并发、高变化速度。虽然分析数据存储(S3、Redshift)通常以列格式存储数据,但数据集很大且使用分区、计算量大、定期执行复杂的连接和聚合、批量加载和低变化速度。

  1. S3
    1. 您需要非常了解 S3。了解 S3 存储类以及生命周期规则如何在不同的 S3 存储类之间移动对象以节省成本、复制、版本控制和 S3 安全性(存储桶策略、不同的加密机制)。
    2. 你需要知道 S3 Select(你可以只检索一部分数据,更快和更便宜的选项)和 Glacier Select(你可以查询存档的未压缩的 CSV 文件,最简单、最快、免管理的选项)。另外,知道通过在 S3 GET 对象请求中使用范围 HTTP 标头,您可以从对象中获取字节范围而不是检索整个对象。
    3. 期待有关 S3 Select、Glacier Select、S3 安全性、S3 存储类和生命周期规则的问题。
  2. 动态数据库
    1. 您需要了解DynamoDB的基础知识(LSI、GSI、RCU、WCU、Streams、DAX)。知道 DynamoDB 可以作为 Glue 爬虫的来源,EMR 中的 Apache Hive 可以查询和连接多个 DynamoDB 表。知道每个 KCL 应用程序都必须使用自己的 DynamoDB 表。
  3. 弹性缓存
    1. 大致了解 Elastic Cache。了解 2 个不同的选项和用例(缓存、聊天/消息、游戏排行榜、地理空间、会话存储等)。知道 Redis 或 Memcached(弹性缓存选项)等内存数据存储可用于存储瞬态数据,以便出于性能原因进行快速检索。
  4. 红移
    1. 期待很多关于Redshift的问题. 您需要了解 Redshift 架构、最佳实践、不同的节点类型、Redshift Spectrum、分布方式、复制和备份(包括将快照复制到另一个区域)、Redshift 集群扩展、从 Redshift 集群导入和导出数据、Redshift 工作负载管理( WLM)、并发扩展、短查询加速 (SQA)、弹性调整大小与经典调整大小、VACUUM 命令(从已删除的行中恢复空间)、AQUA(高级查询加速器)、Redshift 安全性(与 HSM 集成、审计日志记录、加密等) .), 红移无服务器。知道 Redshift 在复杂的分析查询、Redshift QuickSight 集成(特别是当它们都在不同的区域)和集群高可用性(特别是当 Redshift 集群驻留在单个 AZ 中时)方面比 Athena 有更好的性能。
领域 3:处理

本节重点介绍 EMR(Elastic Map Reduce)和 Glue。您应该已经了解 Lambda(了解 lambda 与 S3 事件、Kinesis Data Firehose、Kinesis Data Analytics、CloudWatch 日志订阅、SQS 和 SNS 的集成)

  1. EMR
    1. 预计会有很多关于 EMR 的问题。您需要了解 EMR 架构、最佳实践、不同的节点类型、EMR 中支持的不同 Hadoop 工具、HDFS 与 EMRFS、EMR 自动扩展与 EMR 托管扩展、EMR 无服务器(高级)、EMR 安全性(EMFS 和静态)本地磁盘和传输中加密、集群审计日志)、S3DistCp(将数据从 S3 复制到 HDFS)、高可用性配置、引导 EMR 集群。知道 Spot 实例是任务节点的绝佳选择。
  2. Glue
    1. 预计也会有很多关于 Glue 的问题。Glue Crawler、Glue ETL、Glue Catalog(包括Classifiers以及与Hive Metastore的区别)、Job bookmarks你需要知道。了解 Glue 可以连接的不同系统,Glue ETL 提供的开箱即用的转换功能,Glue 爬虫可以至少 5 分钟的间隔运行。
    2. 了解 Glue 和 EMR 之间的区别(何时使用什么)。Glue 是无服务器 Spark 平台,主要用于 ETL 工作负载,面向批处理的工作负载的维护和运营开销为零。AWS Glue 的成本低于 EMR 集群等长期存在的基础设施。
    3. 而 EMR 提供了对 Hadoop 环境的较低级别的访问,并且在使用 Spark 以外的工具方面具有更大的灵活性。
领域 4:分析和可视化

本节重点介绍 Athena 和 QuickSight 以及一些 Amazon Elasticsearch Service(Amazon ES,现在是 OpenSearch)。考试希望您了解选择正确服务的用例。

  1. Athena
    1. 了解什么是 Athena、它的用途、支持的文件格式和 Athena 安全性。期待关于 Athena Workgroup、使用 Athena 的跨区域查询、每个查询限制、每个工作组限制和查询成本降低(例如,列数据格式、分区、压缩等)的问题。考虑使用 Athena 对位于数据湖(例如 S3)中的数据进行免管理、交互式、即席查询。
  2. QuickSight
    1. 了解 QuickSight 支持的数据源和文件格式。期待有关 QuickSight 可视化类型(根据场景选择哪一种)、QuickSight 安全性(MFA、VPC 连接、行级安全性、列级安全性、身份验证,尤其是使用 Active Directory 的身份验证)、与不同区域中的 Redshift 集群的连接性的问题,QuickSight 标准版和企业版之间的区别。
领域 5:安全

在介绍上述部分的服务时,我主要介绍了安全部分。考试要求您了解 AWS 平台中的基本安全服务,例如 IAM、VPC、VPC Endpoints、KMS、Federation、CloudTrail 和 HSM(Redshift 集群集成)。期待关于 S3、QuickSight、RedShift、EMR 和 Athena 的静态加密、网络访问和身份验证问题。