EMR Serverless Spark产品可联合Dataleap产品开通,借助Dataleap,您可以完成EMR Serverless Spark的元数据管理、任务调度、数据导入和导出,可最大化挖掘EMR Serverless Spark提供的能力。
前置准备
元数据管理与授权
LAS Formation 是火山对湖仓引擎提供统一元数据权限管理的平台服务,支持对全托管半托管以及其他形态的大数据分析系统提供服务。Serverless Spark 默认是由 LAS Formation 作为元数据管理(鉴权)服务。
入口:LAS Formation
入口:TOS
元数据信息
您可以在LAS Formation创建数据目录/库/表/函数
授权
TOS 桶授权
- 查询EMR Serverless Spark 数据库对应的TOS 桶
LAS Formation数据库授权
您可以在此搜索数据库并授权给用户
通过Dataleap导入/导出数据
- 首先在DataSail项目详情中新建数据源类型为Hive,接入方式为EMR Serverless Hive,具体可参考配置数据源。
- 然后在DataSail项目开发页创建任务。您可根据您的实际业务场景选择创建离线或流式集成作业。
- 在作业配置页面您需要选择第一步配置的数据源为源或目标,并配置字段映射和数据集成资源组。
- 离线集成作业您可以通过调试功能来尝试运行作业,并校验下游数据是否符合预期。
通过Dataleap调试/调度任务
- 通过Dataleap创建EMR作业,具体可参考数据开发。
- 关联集群类型需要选择为"EMR Serverless Spark"
- 开发完成后,您可以借助调试功能尝试运行作业,并校验产出数据是否符合预期。
- 调试无误后,您可以在Dataleap作业配置中为作业设置自动调度。
自助排查问题
查看日志
- 打开“作业管理”页面-> 找到失败的作业->点击“日志”
- 您可以查看提交阶段的日志和运行阶段的日志
查看SparkUI
您也可以通过点击SparkUI查看详细的任务执行统计和日志等信息。