DataLeap on EMR 快速入门--大数据研发治理套件-火山引擎

文档中心

立即注册

导航

DataLeap on EMR 快速入门

最近更新时间：2024.12.09 11:49:09首次发布时间：2023.01.16 16:13:46

本文将为您介绍如何通过大数据研发治理套件 DataLeap，实现火山引擎 E-MapReduce（EMR）集群相关的数据集成、开发、元数据管理以及质量监控等功能，例如：

通过数据集成任务将 MySQL数据源的数据，导入至 EMR Hive 库中。
通过数据开发任务创建并执行作业。
通过数据质量监控 Hive 表数据的波动并做数据探查。
通过数据地图查看 EMR 集群中的 Hive 库表信息。

1 前提条件

已开通 EMR 服务，并完成服务账号授权工作，详见 EMR 准备工作。
已开通 DataLeap 服务，并完成服务账号授权工作，详见 DataLeap 准备工作。
已创建和 EMR 集群同 VPC 下的数据集成资源组。详见资源组管理。
准备来源端 MySQL 数据源，此次案例使用火山引擎云数据库 MySQL 版。详见快速入门。

2 创建集群及项目

2.1 创建 EMR-Hadoop 集群

登录 EMR 控制台。
在左侧导航栏中，单击集群列表 > 创建集群入口，开始集群创建。
右上角单击快速创建按钮，完成软件配置、付费设置、可用地区、网络配置、实例设置、基础信息等配置。配置信息详见：创建集群。
配置参数填写完成后，勾选我同意EMR服务条款， 单击立即创建按钮，完成集群创建。
进入集群控制台 > 集群列表查看创建的集群，待集群状态更新为运行中，即代表创建成功。

2.2 EMR 集群绑定

EMR 集群创建完成后，进入 DataLeap 租户控制台界面，在控制台中进行 EMR 集群绑定操作。

登录 DataLeap 租户控制台。
在左侧导航栏中，选择引擎绑定 > EMR集群绑定，进入EMR集群绑定页面。

单击绑定集群按钮，在弹出的窗口中，下拉选择已创建的 EMR 集群后，单击绑定按钮完成绑定并显示在列表中。
单击列表中某条信息操作列的访问模式按钮，在弹出的侧拉窗口中，可以修改访问模式并绑定EMR LDAP账号。

说明

访问模式说明：

快捷模式：
使用快捷模式绑定 EMR 引擎时，在任务实际执行的时候，是使用 EMR 超级账号来实现对 EMR 资源鉴权和使用。
快捷模式常应用于对任务执行或 EMR 中的数据没有强管控要求时。
安全模式：
使用安全模式绑定 EMR 引擎时，通过 IAM 用户名和 EMR LDAP 账号配置的映射关系，来保障数据权限隔离。即在任务实际执行的时候，通过实际执行时不同的 IAM 账号所对应绑定的 EMR LDAP 账号，来实现对 EMR 资源的鉴权和使用。
安全模式常应用于对不同 IAM 账号，在任务执行或数据操作方面有不同级别的权限强管控要求时使用。且 IAM 账号实际使用数据时，需先通过数据安全模块进行数据库表权限申请后，方可进行数据查询、写入等操作。详见4 数据安全申请权限。

更多集群绑定与管理操作详见绑定 Hadoop 集群。

2.3 创建 DataLeap 项目

登录 DataLeap 租户控制台。
单击左侧导航栏的项目管理，进入项目管理页面。
单击创建项目按钮，进入创建项目页面，完成项目基础信息、项目管控、服务绑定等项目配置工作。配置详见新建项目。
服务绑定时，选择已创建成功的数据集成资源组和 EMR 集群。
注意
DataLeap 目前支持以快捷模式绑定 EMR 集群进行使用，则其项目下所有 EMR 任务，EMR 内部实际的任务执行者为：flowagent（在3.4.0以上版本对应的执行用户变更为admin）。

3 配置数据集成任务

数据集成是稳定高效的数据同步平台，致力于提供丰富的异构数据源之间高速稳定的数据同步能力。

3.1 配置数据源

DataLeap 项目创建完成后，您可继续以下操作：

在项目管理列表中，单击配置信息，进入项目控制台。
在项目控制台界面，左侧导航栏中，点击数据源管理按钮，进入数据源管理页面。
在数据源管理页面，您可以开始新增 MySQL 和 Hive 数据源。详见配置 MySQL 数据源、配置 EMR Hive 数据源。其余数据源详见配置数据源。
注意
数据源测试连通性选择的数据集成资源组，需和 MySQL、EMR Hive 数据库处于同一个 VPC 下，保证网络能访问成功。若数据源存在于不同网络环境下，您可通过公网形式来访问或通过提工单的形式咨询 DataLeap 技术支持人员。

3.2 配置数据集成同步任务

数据源测试连通性成功后，您可继续往下配置数据集成同步任务。

在项目控制台界面左上角全部产品中，进入数据开发界面。
在数据开发页面，点击新建任务按钮，进入新建任务页面。
任务类型选择数据集成 > 离线集成 。
输入任务名称，并选择目标文件夹。
说明
任务名称只允许字符.、字母、数字、下划线、连字符、[]、【】、（）、()以及中文字符，127个字符以内。
点击确定按钮，完成任务新建，进入任务配置页面。
通过界面向导的方式，来配置 MySQL_to_Hive 的集成任务。详见创建并运行离线数据同步任务。

集成任务配置完成后，您可以继续进行以下操作：
1. 调度设置：设置任务的周期性调度和上下游依赖关系的能力，在指定的时间自动去触发执行，提高执行效率。详见调度设置。
2. 保存：将任务进行保存操作，保存当前节点代码及相关配置。
3. 调试：运行当前节点的任务配置，在数据开发环境测试任务执行情况。
4. 提交上线：将作业提交至生产环境，进行周期调度执行。详见5 提交上线。

4 数据开发

DataLeap 数据开发即大数据开发 IDE，集批流开发为一体，为开发者提供高效、智能的开发环境。支持快速创建与 EMR 引擎相关的开发任务、进行代码开发、运行查询等。您可在 DataLeap 平台上，直接操作 EMR 相关数据。

4.1 数据开发类型

数据开发类型的任务，用于周期调度、手动调度执行的任务开发，EMR 引擎支持的任务类型如下：

注意

EMR引擎目前支持绑定 Hadoop、TensorFlow、Flink、StarRocks、Doris 几种集群类型，其中 StarRocks、Doris 集群仅支持绑定 EMR-3.2.1 及以上集群版本，不同版本说明详见 EMR版本概述。
EMR 流式数据任务创建，需满足以下条件之一：
- 支持 EMR-3.2.1 及以上版本的 Hadoop 集群类型，且需包含 Flink 和 GTS 组件服务。
- 支持 EMR-1.3.1 版本的 Hadoop 或 Flink 集群类型，且需包含 Flink 组件服务。
若 Flink 组件服务，是在 EMR 集群创建成功后，通过添加服务的方式添加时，则需要先在 EMR 管控端重启 OSSA 服务，方可继续使用对应服务相关功能。
若项目绑定 EMR-3.4.0 或之后的版本，可以通过添加 Kyuubi 服务，并重启 OSSA 服务的方式，加速 EMR Spark 任务的执行效率。

离线数据：
- EMR HSQL：通过编辑EMR HSQL语句，实现对EMR数据进行加工处理。
- EMR Spark：实现使用Java Spark处理数据，多用于大规模的数据分析处理等。
- EMR HDFS-sensor：实现对上游HDFS文件路径下数据的监控。
- EMR Hive-sensor：实现对上游Hive表分区数据的监控。
- EMR 报表任务：将 EMR SQL 查询的数据结果，以邮件形式，进行对外传输。
流式数据：
- EMR Flink SQL：通过 EMR Flink SQL 实现不同存储系统之间的ETL等。
- EMR Java Flink：实现EMR Java Flink原生任务的托管和运维。

4.2 临时查询类型

临时查询类型，用于在 EMR 引擎能力上，进行单次简单的测试查询。例如，配置数据集成任务中，集成任务调试成功后，您便可在临时查询界面创建查询任务，来查询 EMR Hive 表数据。详见临时查询。
临时查询支持以下查询类型：

注意

各查询类型，需 EMR 集群组件中，包含 Presto、Trino、Spark、Hive 这 4 类组件，则支持创建以下各自组件对应的查询类型。
若 Presto、Trino 组件服务，是在 EMR 集群创建成功后，通过添加服务的方式添加时，需要先在 EMR 管控端重启 OSSA 服务，方可继续使用对应服务相关功能。
若项目绑定 EMR-3.4.0 或之后的版本，可以通过添加 Kyuubi 服务，并重启 OSSA 服务的方式，加速 EMR Spark 任务的执行效率。

EMR Hive SQL：自 EMR-1.0.0 版本开始支持。
EMR Spark SQL：自 EMR-1.0.0 版本开始支持。
EMR Presto：自 EMR-1.3.0 版本开始支持。
EMR Trino：自 EMR-1.3.0 版本开始支持。
EMR Doris：只支持在 Doris 集群执行，自 EMR-3.2.1 版本开始支持。
EMR Starrocks：只支持 StarRocks 集群执行，自 EMR-3.2.1 版本开始支持。

4.3 发布中心

发布中心模块，主要目标是提高数据研发效率，规范任务发布流程，区分开发-生产环境，提高生产安全及稳定性，完善数仓研发全链路能力建设。数据开发类型的任务提交上线时，若只选择仅提交，则您需进入发布中心，在此进行代码提交和发布包管理等操作。

4.4 运维中心

任务提交发布成功后，可进入运维中心查看任务运维。在上方导航栏中，进入离线任务运维、实时任务运维。您可在运维中，按需查看任务运行情况，可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。

操作详见：离线任务运维、流式任务运维。

5 数据质量

数据质量平台是一款针对数据及其生产链路的数据质量管理平台，功能包括数据量、数据个性化指标的波动监控及异常报警，数据内容探查及差异对比等，保证了数据在生产及使用流程中的可靠性和合理性。

5.1 新建监控规则

在界面左上角全部产品中，进入数据质量界面。
在离线数据监控 > 监控对象界面，下拉选择引擎类型为项目绑定的 EMR 引擎。
单击右侧的**+ Hive监控对象**按钮，进行新建监控对象。详见配置Hive模板规则。
您可根据需要，配置 EMR Hive 表的数据监控规则类型。
监控配置完成后，单击右下角的完成或完成并试跑按钮，完成规则创建。

5.2 查看试跑结果

配置监控规则时，单击完成并试跑按钮，即可开始规则试跑。

单击左侧导航栏中的试跑结果，进入试跑结果页查看。
您可在操作栏中，查看当前 Hive 表试跑的规则、执行 SQL 和运行日志等信息。

5.3 数据探查

在 EMR Hive 表使用过程中，您可以对其进行数据探查工作，并一键生成探查报告及结果的查看。
目前支持对 EMR 引擎下库表的全量探查和动态探查的能力。

6 数据地图

数据地图采用图形化全链路数据表管理工具，提供字段、分区级元数据血缘展示，并通过数据血缘关系，获取数据生产全链路信息，解决找数难、理解数据难的痛点。
您可以在数据地图上完成 EMR 引擎库表的数据检索、元数据采集、库表管理和查看血缘图谱的操作：

在数据检索界面，直接搜索 Hive 表的关键词信息，进行表数据检索、查看表的数据详情、预览探查、查看表的 DDL 等操作。
在血缘图谱界面，能帮助您分析 Hive 表依赖的上下游血缘图谱信息，定位当前表的影响层级和任务依赖调度。
在元数据采集界面，您可进行 EMR 集群的元数据采集操作，将元数据信息，同步展现到数据地图上进行相关元数据的查看。
在库表管理界面，提供了对 EMR 集群元数据的库表创建、编辑、删除、鉴权归属的统一管理能力。