You need to enable JavaScript to run this app.
导航
SparkJar 作业
最近更新时间:2025.10.29 17:57:23首次发布时间:2024.05.13 18:57:41
复制全文
我的收藏
有用
有用
无用
无用

简介

为满足用户定制化数据查询分析的需求,EMR Serverless Spark 提供了可视化提交 SparkJar 作业的方式。用户可以编写 Java 代码,提交 SparkJar,完成分布式数据处理。

准备工作

  • 已创建一个具有通用资源的资源队列或公共队列。具体操作可参考:创建资源队列
  • 拥有队列 Developer/Admin 权限。
  • 已将作业文件、依赖 Jar 包及依赖 File 上传至当前 Serverless 队列同区域的 TOS 桶中。

操作步骤

通过控制台提交作业

  1. 登录 EMR Serverless 控制台,选择目标队列。
  2. 进入编辑作业页面,有如下两种方式:
    方式一
    1. 在队列详情页中,点击作业提交,进入编辑作业页面。
      方式二
    2. 在队列详情页中,点击计算组
    3. 进入计算组列表页面,选择并进入目标计算组,在计算组详情页的右上角,点击创建作业,进入作业编辑页面。
  3. 在作业编辑框的右上角,开发类型选择 SparkJar开发模式可选择UI或者JSON
  4. 完成作业编辑后,您可以通过控制台右上角的队列计算组来选择计算资源,完成后点击左下角的运行按钮,提交作业。
  5. 作业提交完成后,会弹出提交成功的标识,并在下方的查询日志中,会显示您本次提交的作业id,以及当前的任务状态,您可进一步在作业管理处查看详细任务情况。

UI 参数说明

参数名称

参数作用

主类

SparkJar 作业运行的主类

资源文件

SparkJar 作业的主要 Jar 资源,您可以将资源上传至 TOS,然后在此指定 TOS 路径

依赖 Jar(Jars)

除了任务主文件,SparkJar 作业还支持添加一些依赖的 Jar 文件,在任务运行时会被同时添加至任务 classpath 中。同样,您可以将资源上传至 TOS 并在此指定路径

其它依赖文件(Files)

SparkJar 作业的依赖文件,用户可以在任务代码中,通过 API 访问

Spark 参数(Spark Conf)

Spark 作业参数,可以指定 Spark 作业所用的资源等

自定义参数(Main Conf)

SparkJar 作业主类运行时,需要传入的参数

Image

JSON 模式参数说明

其中,UI 模式字段名和 JSON 模式的字段 KEY 的对应关系如下:

UI 模式

JSON 模式

是否必须

作业名称

Name

Y

语言类型

Language

Y

主类(Main Class)

MainClass

Y

队列

Queue

Y

资源文件

MainFile

Y

依赖 Jar(Jars)

DependJars

N

其他依赖文件(Files)

DependFiles

N

Spark参数(Spark Conf)

Conf

N

自定义参数(Main Conf)

MainArgs

N

Image

通过 SDK 提交 SparkJar 作业

目前 EMR Serverless 支持 Java 和 Python 两类 SDK。Java SDK 使用方式请参考:Java Query SDK;Python SDK 使用方式请参考:Python Query SDK

通过 Spark Submit 提交 SparkJar 作业

使用方式请参考文档:Spark Submit 工具使用说明

如何读写库表

对于 SparkJar 作业,默认无法读写用户账户下 LAS 的库表,如果您想在 SparkJar 作业中,通过 Spark SQL/Table Api 进行库表的读写,需要在 Spark 参数中额外设置:
Image

参数名称

参数值

serverless.spark.access.key

访问LAS 库表所需的Access Key

serverless.spark.secret.key

访问LAS 库表所需的Secret Key