You need to enable JavaScript to run this app.
导航
Dataleap联合开通及使用
最近更新时间:2024.07.18 14:48:53首次发布时间:2024.07.18 14:48:53

EMR Serverless Spark产品可联合Dataleap产品开通,借助Dataleap,您可以完成EMR Serverless Spark的元数据管理、任务调度、数据导入和导出,可最大化挖掘EMR Serverless Spark提供的能力。
图片

前置准备

元数据管理与授权

LAS Formation 是火山对湖仓引擎提供统一元数据权限管理的平台服务,支持对全托管半托管以及其他形态的大数据分析系统提供服务。Serverless Spark 默认是由 LAS Formation 作为元数据管理(鉴权)服务。
入口:LAS Formation
入口:TOS

元数据信息

您可以在LAS Formation创建数据目录/库/表/函数

授权

TOS 桶授权
  • 查询EMR Serverless Spark 数据库对应的TOS 桶
  • 给数据源授予对应TOS上bucket的权限

    1.在桶列表找到对应桶
    2.点击桶名称->权限管理->存储痛授权策略管理,创建策略给用户授权

LAS Formation数据库授权

您可以在此搜索数据库并授权给用户
图片

通过Dataleap导入/导出数据

  1. 首先在DataSail项目详情中新建数据源类型为Hive,接入方式为EMR Serverless Hive,具体可参考配置数据源

图片

  1. 然后在DataSail项目开发页创建任务。您可根据您的实际业务场景选择创建离线或流式集成作业。
  2. 在作业配置页面您需要选择第一步配置的数据源为源或目标,并配置字段映射和数据集成资源组。
    图片
  3. 离线集成作业您可以通过调试功能来尝试运行作业,并校验下游数据是否符合预期。

通过Dataleap调试/调度任务

  1. 通过Dataleap创建EMR作业,具体可参考数据开发

图片

  1. 关联集群类型需要选择为"EMR Serverless Spark"
  2. 开发完成后,您可以借助调试功能尝试运行作业,并校验产出数据是否符合预期。
  3. 调试无误后,您可以在Dataleap作业配置中为作业设置自动调度。

自助排查问题

图片

查看日志

  1. 打开“作业管理”页面-> 找到失败的作业->点击“日志”
  2. 您可以查看提交阶段的日志和运行阶段的日志

查看SparkUI

您也可以通过点击SparkUI查看详细的任务执行统计和日志等信息。