本文将为您介绍如何通过大数据研发治理套件 DataLeap,实现火山引擎 E-MapReduce(EMR)Serverless Spark 实例相关的数据集成、开发、元数据管理等功能,例如:
注意
其中子用户访问 EMR Serverless Spark 队列资源时,需确保拥有 EMRServerlessFullAccess 或 EMRServerlessReadOnlyAccess 权限策略,子用户可请主账号在访问控制界面进行权限策略添加。
LAS Formation 开通后,系统会默认生成一个名称为“Hive”的 Catalog,首次登录时,您需修改默认 Catalog 的存储路径,指定存储位置后,便可开始进行元数据数据管理和开发。
说明
目前一个租户下,仅支持设定一个存储位置。
LAS Formation 存储位置设定完成后,您可在 DataLeap 数据地图中进行相应的数据采集工作,便于后续进行数据集成、数据开发等相关操作。
采集器创建完成后,您便可开始 LAS Formation 库表相关的创建操作。
说明
您可在数据地图界面创建 LAS Formation 库表操作,也可在数据开发界面,通过 EMR Serverless Spark SQL 任务类型进行创建。详见 EMR Serverless Spark SQL。
在数据地图界面上方导航栏中,切换至我的库表界面。
在左侧导航栏中,进入 DB 管理 > LAS Formation 页签。
单击新建 LAS Formation 库按钮,进行数据库的创建。
在弹窗界面,完成以下 LAS Formation 库的信息配置:
其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
参数 | 说明 |
---|---|
*库名 | 创建的数据库的名称,一旦设定不可更改。 |
*库负责人 | 数据库的管理员,偏开发角色,负责库的日常运维。
|
*库权限负责人 | 安全管理角色,可管理库下全部资源(授权回收、密级设置、审批流配置等),判断数据可否开放使用,并直接参与整库权限的审批。 |
描述 | 说明信息,可描述数据库的范围、用途等,以便后续管理。 |
*库用途 | 有生产环境和测试环境两个选项。 |
*保密级别 | 数据库的安全等级,由低到高依次为 L1、L2、L3、L4,下拉可选。 |
库信息配置完成后,单击确定按钮,完成 LAS Formation 库的创建。
更多 LAS Formation 库的管理操作详见管理 LAS Formation 库。
LAS Formation 库创建完成后,您便可继续在数据地图界面,进行 LAS Formation 表的创建。
说明
创建的 LAS Formation 表,默认存储位置在 LAS Formation 元数据目录设定的 TOS 路径下。详见3 配置 LAS Formation 元数据数据目录。
更多 LAS Formation 表的管理操作详见管理 LAS Formation 表。
全域数据集成是稳定高效的数据同步平台,致力于提供丰富的异构数据源之间高速稳定的数据同步能力。
LAS Formation 库表信息创建完成后,您可继续以下操作。
DataLeap 控制台项目管理列表中,选择已创建的 DataLeap 项目。
在操作列下单击配置信息,进入项目控制台。
在项目控制台界面,左侧导航栏中,单击数据源管理按钮,进入数据源管理页面。
在数据源管理页面,您可以开始新增 MySQL 和 Hive 数据源:
其中参数名称前带 * 的为必填参数,名称前未带 * 的为可选填参数。
配置 MySQL 数据源:
注意
参数 | 说明 |
---|---|
基本配置 | |
*数据源类型 | MySQL |
*接入方式 | 火山引擎 MySQL |
*数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100 个字符以内。 |
参数配置 | |
*RDS 实例 ID | 火山引擎云数据库 MySQL 的实例 ID,下拉选择。 |
*数据库名 | 下拉选择实例下,已创建的 MySQL 数据库名称。 |
*用户名 | 有权限访问数据库的用户名信息。 |
*密码 | 输入用户名对应的密码信息。 |
配置 Hive 数据源:
参数 | 说明 |
---|---|
基本配置 | |
*数据源类型 | Hive |
*接入方式 | EMR Serverless Hive |
*数据源名称 | 数据源的名称,可自行设置,仅支持中文,英文,数字,“_”,100 个字符以内。 |
参数配置 | |
*Hive 版本号 | 默认仅支持 Hive 3.1.3。 |
*Accesskey ID | 进入火山引擎,访问控制台的密钥管理界面,复制 Accesskey ID 填写到此处。如果为子用户,请联系主账号获取密钥。 注意 填写的 AK\SK 信息,需拥有以下相应的权限:
|
*Secret Access Key | 与 AccessKey ID 配套使用,类似登录密码,用于签名您的访问参数,以防被篡改。 |
*数据库名 | 输入上方 AK/SK 信息后,可在此下拉选择 EMR Serverless Spark 环境中,已创建的 Hive 数据库名称。 |
扩展配置 | 您可输入 HDFS 配置的可选扩展,例如 Hadoop HA 的配置信息。 |
数据源更多说明详见配置 MySQL 数据源、配置 Hive 数据源。
数据源配置完成,并且测试连通性成功后,您可继续往下配置数据集成同步任务。
说明
任务名称只允许字符.、字母、数字、下划线、连字符、[]、【】、()、()以及中文字符,127 个字符以内。
DataLeap 数据开发即大数据开发 IDE,集批流开发为一体,为开发者提供高效、智能的开发环境。支持快速创建与 EMR 引擎相关的开发任务、进行代码开发、运行查询等。您可在 DataLeap 平台上,直接操作 EMR Serverless Spark 相关数据。
新建数据开发类型的任务,可用于周期调度、手动调度执行的任务开发。
EMR Serverless Spark 实例支持的任务类型如下:
说明
通过 EMR Serverless Spark SQL 方式创建 LAS Formation 数据库表信息后,您可前往数据地图 > 元数据采集界面,单击采集器操作列下的执行按钮,手动执行元数据采集,便可快速在数据地图界面进行 LAS Formation 库表信息检索。
发布中心模块,主要目标是提高数据研发效率,规范任务发布流程,区分开发-生产环境,提高生产安全及稳定性,完善数仓研发全链路能力建设。数据开发类型的任务提交上线时,若只选择仅提交,则您需进入发布中心,在此进行待发布和发布包管理等操作。
任务提交发布成功后,可进入运维中心查看任务运维。在上方导航栏中,进入离线任务运维、实时任务运维。您可在运维中,按需查看任务运行情况,可对任务进行监控报警设置、开启任务、停止任务、查看运行日志等运维操作。
更多操作详见:离线任务运维。
临时查询支持 EMR Serverless Spark SQL 查询类型和 Notebook 中 EMR Serverless Spark Kernel 引擎类型创建、运行及结果数据预览,您可便捷地在数据开发过程中测试代码的实际运行情况与期望是否相符、排查代码错误等。
说明
临时查询不需要将任务提交上线和设置调度参数。如果您需要使用周期性调度任务,请在数据开发页面中新建任务。详见6.1 新建数据开发任务。
临时查询 EMR Serverless Spark 引擎支持的相关操作详见:EMR Serverless Spark SQL、Spark on EMR Serverless Kernel 实践。
DataLeap 数据安全模块支持 LAS Formation 库表权限管理操作,其余子用户如需申请相应的 LAS Formation 库表权限,便可通过数据安全模块申请。
在数据开发界面左上角全部产品中,进入数据安全界面。
子用户在数据安全 > 权限管理界面,进入我的权限界面。
单击右上角申请权限按钮,进入权限申请操作。
在申请权限界面,完成以下权限申请操作:
其中名称前带 * 的参数为必填参数,名称前未带 * 的参数为可选参数。
参数 | 说明 |
---|---|
选择获权方 | |
*获权方类型 | 获权方申请类型有两个选项:个人和用户组,默认选择个人。 |
*获权方 | 获得资源权限的个人或用户组。
说明
|
申请资源:单击添加资源按钮,进行申请资源选择。 | |
*数据源 | 数据源类型,选择 Las Formation 数据源。 |
*内容 | 选择申请的资源粒度,支持数据库、数据表粒度。
注意 Las Formation 元数据采集后,需 T+1 日才可同步至数据安全。 |
*申请范围 | 选择完申请数据表的资源内容后,可设定权限申请的范围,LAS Formation 资源目前仅支持整表申请。 |
访问类型 | 选择获权方可获得的访问权限。其中,不同的资源内容层级提供的权限类型选项不完全相同,分别如下:
说明 具体权限说明如下:
|
有效期 | 按需选择拥有资源权限的有效期限。 |
申请原因 | |
*需求类型 | 申请资源权限的原因分类,包括故障排查、指标计算、挖掘分析等选项,可从下拉列表中选择。 |
*详细原因 | 申请资源权限的详细原因说明。 |
*申请问答 | 申请资源权限要回答的自定义问题。 |
申请权限信息配置完成后,单击提交按钮,等待 LAS Formation 库表权限负责人审批通过后,子用户便可拥有相应的资源操作权限。
申请权限发起后,您也可通过审批中心 > 审批工单 >申请记录功能,查看所有自己申请的工单,包括申请内容、申请状态等,还可以进行工单撤销或催办操作。相关操作说明请参见管理申请记录。