You need to enable JavaScript to run this app.
导航
DataLeap on EMR Serverless Spark 快速入门
最近更新时间:2024.08.28 14:48:40首次发布时间:2024.07.11 10:46:05

本文将为您介绍如何通过大数据研发治理套件 DataLeap,实现火山引擎 E-MapReduce(EMR)Serverless Spark 实例相关的数据集成、开发、元数据管理等功能,例如:

  1. 数据地图:在 EMR Serverless Spark 实例下管理 LAS Formation 库表,包括元数据采集和新建库表等操作。
  2. 全域数据集成:通过全域数据集成任务,将业务系统(如 MySQL 数据源)的数据导入到 LAS Formation 库表中。
  3. 数据开发:在 DataLeap 数据开发模块中,创建、提交和运维 EMR Serverless Spark 任务。
  4. 数据安全:通过数据安全模块,便捷地管理 LAS Formation 库表权限。

1 前提条件

  1. 已创建 TOS 对象存储服务,用于数据库路径存储。创建 TOS 服务操作详见 TOS 服务开通
  2. 已开通 LAS Formation 统一的元数据服务,目前处于试用阶段,您可通过提工单的方式进行加白开通。详见 LAS Formation 快速入门
  3. 已开通 EMR Serverless Spark 服务,并完成服务账号授权工作和子用户权限策略添加。详见准备工作

    注意

    其中子用户访问 EMR Serverless Spark 队列资源时,需确保拥有 EMRServerlessFullAccess 或 EMRServerlessReadOnlyAccess 权限策略,子用户可请主账号在访问控制界面进行权限策略添加。

  4. 需开通 DataLeap 服务版本中大数据分析、DataOps 敏捷研发分布式数据自治的服务,项目方可继续绑定 EMR Serverless Spark 实例。详见版本服务说明
  5. 已创建数据集成任务所需的独享集成资源组。详见独享集成资源组管理
  6. 准备来源端 MySQL 数据源,此次案例使用火山引擎云数据库 MySQL 版。详见快速入门

2 创建实例、集成资源及项目

2.1 创建 EMR Serverless Spark 实例

  1. 登录 EMR 控制台
  2. 在左侧导航栏中,单击 Serverless > Spark 入口,进入 Serverless Spark 资源队列界面。
  3. 右上角单击创建队列按钮,完成 Spark 队列资源创建。配置信息详见:创建队列
    图片
  4. 队列信息选择完成后,单击立即创建按钮,完成资源队列创建。
  5. 返回资源队列列表查看创建的队列,待队列状态更新为运行中,即代表创建成功。

2.2 创建 DataLeap 项目

  1. 主账号或具备 DataLeapFullAccess 权限的 IAM 子用户登录 DataLeap 租户控制台
  2. 在上方选择已开通 DataLeap 服务的地域信息。
  3. 单击概览界面的新建项目按钮,进入创建项目界面。
    图片
  4. 在创建项目界面完成项目的基础信息、项目管控、服务绑定等配置项,具体配置信息详见创建项目。其中:
    服务绑定时,选择已创建成功的独享集成资源组和 EMR Serverless Spark 实例。
    图片

3 配置 LAS Formation 元数据数据目录

LAS Formation 开通后,系统会默认生成一个名称为“Hive”的 Catalog,首次登录时,您需修改默认 Catalog 的存储路径,指定存储位置后,便可开始进行元数据数据管理和开发。

  1. 主账号或拥有 LASFullAccess 权限策略的子用户登录 LAS Formation 控制台
  2. 在左侧导航栏中单击元数据 > 数据目录,进入数据目录界面。
  3. 存储位置栏下,单击编辑按钮,进行元数据存储位置设定。
    图片
  4. 您可在输入栏中搜索已创建的 TOS 存储桶路径信息。

    说明

    目前一个租户下,仅支持设定一个存储位置。

    图片
  5. TOS 存储桶路径指定后,单击确定按钮,完成存储位置设定。

4 数据地图

4.1 元数据采集

LAS Formation 存储位置设定完成后,您可在 DataLeap 数据地图中进行相应的数据采集工作,便于后续进行数据集成、数据开发等相关操作。

  1. 登录数据地图控制台
  2. 在上方导航栏中,进入元数据采集页签。
    图片
  3. 在左侧元数据类型中,选择 LAS Formation 类型,并单击右上角新建采集器按钮,进入采集器配置。
    图片
  4. 新建采集器界面,依次完成采集对象、授权管理、采集配置、调度配置等操作。采集器配置详见元数据采集
  5. 采集器新建完成后,您可在采集器列表操作列中,单击执行按钮,便可立即执行元数据采集。

4.2 新建 LAS Formation 库表

采集器创建完成后,您便可开始 LAS Formation 库表相关的创建操作。

说明

您可在数据地图界面创建 LAS Formation 库表操作,也可在数据开发界面,通过 EMR Serverless Spark SQL 任务类型进行创建。详见 EMR Serverless Spark SQL

4.2.1 新建 LAS Formation 库

  1. 在数据地图界面上方导航栏中,切换至我的库表界面。

  2. 在左侧导航栏中,进入 DB 管理 > LAS Formation 页签。

  3. 单击新建 LAS Formation 库按钮,进行数据库的创建。
    图片

  4. 在弹窗界面,完成以下 LAS Formation 库的信息配置:
    其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    参数

    说明

    *库名

    创建的数据库的名称,一旦设定不可更改。
    仅支持小写英文字母、数字、下划线,且以小写字母开头,长度 50 字符内。

    *库负责人

    数据库的管理员,偏开发角色,负责库的日常运维。

    • 创建库时,自动填充为当前用户,支持设置多个,下拉可选已创建的租户账号。可以更换负责人,但自己不可移除自己。
    • 可选择是否同步至库权限负责人。

    *库权限负责人

    安全管理角色,可管理库下全部资源(授权回收、密级设置、审批流配置等),判断数据可否开放使用,并直接参与整库权限的审批。
    库负责人取消勾选同步至库权限负责人时,该参数可编辑,支持选择多个。

    描述

    说明信息,可描述数据库的范围、用途等,以便后续管理。

    *库用途

    有生产环境和测试环境两个选项。

    *保密级别

    数据库的安全等级,由低到高依次为 L1、L2、L3、L4,下拉可选。

  5. 库信息配置完成后,单击确定按钮,完成 LAS Formation 库的创建。

更多 LAS Formation 库的管理操作详见管理 LAS Formation 库

4.2.2 新建 LAS Formation 表

LAS Formation 库创建完成后,您便可继续在数据地图界面,进行 LAS Formation 表的创建。

说明

创建的 LAS Formation 表,默认存储位置在 LAS Formation 元数据目录设定的 TOS 路径下。详见3 配置 LAS Formation 元数据数据目录

  1. 在左侧导航栏中,进入 Table 管理 > LAS Formation 页签。
  2. 单击新建 LAS Formation 表按钮,进行数据表的创建。
    图片
  3. 在新建 LAS Formation 表界面,您可通过 DDL 语句,进行数据表创建,并完成表的基础信息、安全信息、元数据标签等其余信息配置操作。

更多 LAS Formation 表的管理操作详见管理 LAS Formation 表

5 全域数据集成

全域数据集成是稳定高效的数据同步平台,致力于提供丰富的异构数据源之间高速稳定的数据同步能力。
LAS Formation 库表信息创建完成后,您可继续以下操作。

5.1 配置数据源

  1. DataLeap 控制台项目管理列表中,选择已创建的 DataLeap 项目。

  2. 操作列下单击配置信息,进入项目控制台。
    图片

  3. 项目控制台界面,左侧导航栏中,单击数据源管理按钮,进入数据源管理页面。

  4. 数据源管理页面,您可以开始新增 MySQL 和 Hive 数据源:
    其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。

    • 配置 MySQL 数据源:

      注意

      • 离线读 MySQL 数据时,配置的账号需拥有同步表的读 (SELECT) 权限。
      • 离线写 MySQL 数据时,配置的账号需拥有同步表的写(INSERT、DELETE、UPDATE)权限。
      • 需要将资源组关联 VPC 中的 IPv4 CIDR 地址添加进数据库白名单中。

      参数

      说明

      基本配置

      *数据源类型

      MySQL

      *接入方式

      火山引擎 MySQL

      *数据源名称

      数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100 个字符以内。

      参数配置

      *RDS 实例 ID

      火山引擎云数据库 MySQL 的实例 ID,下拉选择。

      *数据库名

      下拉选择实例下,已创建的 MySQL 数据库名称。

      *用户名

      有权限访问数据库的用户名信息。

      *密码

      输入用户名对应的密码信息。

    • 配置 Hive 数据源:

      参数

      说明

      基本配置

      *数据源类型

      Hive

      *接入方式

      EMR Serverless Hive

      *数据源名称

      数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100 个字符以内。

      参数配置

      *Hive 版本号

      默认仅支持 Hive 3.1.3。

      *Accesskey ID

      进入火山引擎,访问控制台的密钥管理界面,复制 Accesskey ID 填写到此处。如果为子用户,请联系主账号获取密钥。

      注意

      填写的 AK\SK 信息,需拥有以下相应的权限:

      • 需要有对应 Hive 库表的读写权限,主账号或数据库 Owner 可前往 LAS Formation 控制台进行授权操作。详见 LAS Formation 权限管理
      • 需要有 LAS Formation 中设置的底层存储路径 TOS Bucket 桶读写权限。存储桶权限策略操作详见桶策略模板及参数说明

      *Secret Access Key

      与 AccessKey ID 配套使用,类似登录密码,用于签名您的访问参数,以防被篡改。

      *数据库名

      输入上方 AK/SK 信息后,可在此下拉选择 EMR Serverless Spark 环境中,已创建的 Hive 数据库名称。

      扩展配置

      您可输入 HDFS 配置的可选扩展,例如 Hadoop HA 的配置信息。

    数据源更多说明详见配置 MySQL 数据源配置 Hive 数据源

5.2 配置数据集成同步任务

数据源配置完成,并且测试连通性成功后,您可继续往下配置数据集成同步任务。

  1. 在项目控制台界面左上角全部产品中,进入数据开发界面。
    图片
  2. 在数据开发页面,单击新建任务按钮,进入新建任务页面。
  3. 任务类型选择数据集成 > 离线集成
  4. 输入任务名称,并选择目标文件夹。

    说明

    任务名称只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,127 个字符以内。

    图片
  5. 单击确定按钮,完成任务新建,进入任务配置页面。
  6. 通过界面向导的方式,来配置 MySQL_to_Hive 的集成任务。
    图片
    集成任务来源、目标、字段映射及任务运行参数配置完成后,您可以继续进行以下操作:
    1. 调度设置:设置任务的周期性调度和上下游依赖关系的能力,在指定的时间自动去触发执行,提高执行效率。详见调度设置
    2. 保存:将任务进行保存操作,保存当前节点代码及相关配置。
    3. 调试:运行当前节点的任务配置,在数据开发环境测试任务执行情况。
    4. 提交上线:将作业提交至生产环境,进行周期调度执行。详见提交上线

6 数据开发

DataLeap 数据开发即大数据开发 IDE,集批流开发为一体,为开发者提供高效、智能的开发环境。支持快速创建与 EMR 引擎相关的开发任务、进行代码开发、运行查询等。您可在 DataLeap 平台上,直接操作 EMR Serverless Spark 相关数据。

6.1 新建数据开发任务

新建数据开发类型的任务,可用于周期调度、手动调度执行的任务开发。

  1. 任务开发界面,单击新建任务按钮,进入新建任务页面。
  2. 选择任务类型:
    1. 分类:数据开发
    2. 绑定引擎:EMR Serverless Spark
    3. 关联实例:显示项目绑定时的集群实例信息。
    4. 选择任务:离线数据任务 EMR Serverless Spark SQL、EMR Serverless Spark Jar
  3. 填写任务基本信息:
    1. 任务名称:输入任务的名称,只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,且需要在 127 个字符以内。
    2. 保存至:选择任务存放的目标文件夹目录。
  4. 单击确定按钮,成功创建任务。

图片

6.2 数据开发类型

EMR Serverless Spark 实例支持的任务类型如下:

  • EMR Serverless Spark SQL:通过编写 Spark SQL 的方式,在 DataLeap 数据开发中进行 SQL 作业开发,完成 Spark SQL 的解析与任务提交,实现定制化数据加工、查询分析需求。

    说明

    通过 EMR Serverless Spark SQL 方式创建 LAS Formation 数据库表信息后,您可前往数据地图 > 元数据采集界面,单击采集器操作列下的执行按钮,手动执行元数据采集,便可快速在数据地图界面进行 LAS Formation 库表信息检索。

  • EMR Serverless Spark Jar:通过本地编写 Java 代码,并上传到对象存储系统 TOS 中,便可在 DataLeap 界面,以可视化配置 Spark Jar 作业的方式,进行资源引用。

6.3 发布中心

发布中心模块,主要目标是提高数据研发效率,规范任务发布流程,区分开发-生产环境,提高生产安全及稳定性,完善数仓研发全链路能力建设。数据开发类型的任务提交上线时,若只选择仅提交,则您需进入发布中心,在此进行待发布发布包管理等操作。
图片

6.4 运维中心

任务提交发布成功后,可进入运维中心查看任务运维。在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。
图片
更多操作详见:离线任务运维

6.5 临时查询

临时查询支持 EMR Serverless Spark SQL 查询类型和 Notebook 中 EMR Serverless Spark Kernel 引擎类型创建、运行及结果数据预览,您可便捷地在数据开发过程中测试代码的实际运行情况与期望是否相符、排查代码错误等。

说明

临时查询不需要将任务提交上线和设置调度参数。如果您需要使用周期性调度任务,请在数据开发页面中新建任务。详见6.1 新建数据开发任务

图片
临时查询 EMR Serverless Spark 引擎支持的相关操作详见:EMR Serverless Spark SQLSpark on EMR Serverless Kernel 实践

7 数据安全

DataLeap 数据安全模块支持 LAS Formation 库表权限管理操作,其余子用户如需申请相应的 LAS Formation 库表权限,便可通过数据安全模块申请。

  1. 在数据开发界面左上角全部产品中,进入数据安全界面。
    图片

  2. 子用户在数据安全 > 权限管理界面,进入我的权限界面。

  3. 单击右上角申请权限按钮,进入权限申请操作。
    图片

  4. 在申请权限界面,完成以下权限申请操作:
    其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。

    参数

    说明

    选择获权方

    *获权方类型

    获权方申请类型有两个选项:个人和用户组,默认选择个人。

    *获权方

    获得资源权限的个人或用户组。

    • 获权方类型选择个人时,默认当前登录账号为获权方,可输入租户账号关键字后下拉选择其他账号进行申请,支持设置多个。
    • 获权方类型选择用户组时,下拉可选已创建的用户组。

    说明

    • 租户主账号默认拥有所有数据访问权限,无需申请。

    申请资源:单击添加资源按钮,进行申请资源选择。

    *数据源

    数据源类型,选择 Las Formation 数据源。

    *内容

    选择申请的资源粒度,支持数据库、数据表粒度。

    • 数据库:申请库权限,下拉可选择内容为 LAS Formation 数据库信息。
    • 数据表:申请表权限,下拉可选择内容为 LAS Formation 的数据库、数据表信息。

    注意

    Las Formation 元数据采集后,需 T+1 日才可同步至数据安全

    *申请范围

    选择完申请数据表的资源内容后,可设定权限申请的范围,LAS Formation 资源目前仅支持整表申请

    访问类型

    选择获权方可获得的访问权限。其中,不同的资源内容层级提供的权限类型选项不完全相同,分别如下:

    • 数据库:支持读写、只读、建表。
    • 数据表:支持读写、只读。

    说明

    具体权限说明如下:

    • 读写:可对该资源做所有操作,如 Insert、Select 等。
    • 只读:仅可对该资源做“读”操作,如 Select。
    • 建表:申请数据库下建表权限时,可在当前库下进行“建表”操作,且默认拥有新建表的读写权限,但不可访问库下其他无权限的表。

    有效期

    按需选择拥有资源权限的有效期限。

    申请原因

    *需求类型

    申请资源权限的原因分类,包括故障排查、指标计算、挖掘分析等选项,可从下拉列表中选择。

    *详细原因

    申请资源权限的详细原因说明。
    不同的需求类型,会提供对应的填写模板。

    *申请问答

    申请资源权限要回答的自定义问题。
    当该资源开启了自定义申请问答后,申请其权限时才会显示该参数。设置自定义申请问答的相关说明请参见权限设置

  5. 申请权限信息配置完成后,单击提交按钮,等待 LAS Formation 库表权限负责人审批通过后,子用户便可拥有相应的资源操作权限。
    申请权限发起后,您也可通过审批中心 > 审批工单 >申请记录功能,查看所有自己申请的工单,包括申请内容、申请状态等,还可以进行工单撤销或催办操作。相关操作说明请参见管理申请记录

更多数据安全模块操作,详见权限负责人审批工单授权管理权限审计等。