本文将为您介绍如何通过火山引擎 E-MapReduce(EMR),在已创建的集群上创建并执行作业。
下文将通过三种作业提交方式,来创建并运行作业:
注意
若访问链接不能点击,请检查 Hue 所在 ECS 实例是否绑定弹性公网IP,详见访问链接。
说明
获取 master 实例节点的公网 IP 地址:
在本地使用终端工具命令行 SSH 方式运行如下命令登录主节点:ssh root@[主节点公网IP地址]。详见登陆集群。
使用命令行方式进行 SPARK 作业提交:
说明
Spark Jar 资源,在不同集群版本中,镜像路径会不一致,其余集群版本可根据实际情况进行替换。更多版本操作详见 Spark-快速开始。
以下提交命令,以 3.X 集群版本为例。命令中spark-examples_2.12-3.2.1.jar
为集群中对应的JAR包名称。用户可登录集群,在/opt/apps/SPARK3/spark-current/examples/jars
路径下查看对应的JAR包名称。
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --num-executors 3 --driver-memory 512m --executor-memory 512m --executor-cores 1 /usr/lib/emr/current/spark/examples/jars/spark-examples_2.12-3.2.1.jar
部分重要任务参数说明如下:
参数 | 样例 | 备注 |
---|---|---|
driver-memory | 512m | driver程序使用的内容,最大不可超过该节点的总内存资源 |
num-executors | 3 | 并行executor个数 |
executor-memory | 512m | 单个executor使用的内存大小,最大不可超过该节点的总内存资源 |
executor-cores | 1 | 单个executor的并行数 |
class | org.apache.spark.examples.SparkPi | 程序入口类 |
master | yarn | 程序执行模式,可选yarn,yarn-client |
完成作业提交后,您可通过 YARN UI 访问链接查看作业运行状态和历史作业记录:
一站式大数据研发治理套件(DataLeap),帮助您快速完成数据集成、数据开发、运维、治理、安全等全套数据中台建设,来帮助企业提升数据研发效率,降低运维管理成本。DataLeap 项目可通过绑定 EMR 引擎实例的方式,来创建 EMR 作业并运行。
使用租户主账号开通 DataLeap 产品,并授予云资源相应角色权限。详见开通服务。
进入 DataLeap 控制台,在左侧导航栏中单击项目管理 > 创建项目,进行项目创建。
在创建项目界面,完成项目基础信息、项目管控、服务绑定等配置信息。
其中,在服务绑定-引擎绑定项,您需勾选 E-MapReduce 引擎服务,并在下拉框中,选择已创建的集群名称信息。其余配置信息,详见新建项目。
注意
EMR 实例首次绑定 DataLeap 项目时,需打开 EMR 实例所在安全组的访问权限,方可继续选择 Yarn 队列。详见如何开放EMR实例所在安全组的访问权限?
项目创建完成后,您可以在 DataLeap 控制台上进行 EMR 作业的数据开发、任务运维监控、元数据采集等相关操作。完整详见 DataLeap on EMR 快速入门。
相关模块功能描述如下,详见各功能指导文档:
模块 | 描述 | 指导文档 |
---|---|---|
数据开发 | 您可以根据实际业务场景,选择创建合适的 EMR 节点类型进行作业开发。 | |
任务运维 | 提供线上任务的管理运维操作,支持离线、流式的任务运维;通过配置监控规则,实现对任务运行状态的监控。 | |
数据质量 | 提供对离线、流式数据产出表的数据质量监控。 | |
数据地图元数据 | 通过元数据采集方式可视化管理 EMR 元数据,您可以在数据地图中查看 EMR 表数据、血缘图谱等。 |