You need to enable JavaScript to run this app.
导航
基础使用
最近更新时间:2024.01.29 16:33:08首次发布时间:2024.01.29 16:33:08
我的收藏
有用
有用
无用
无用

Celeborn 现阶段已支持作为 Spark、Flink 引擎的 Remote Shuffle 服务。EMR 针对 Spark 引擎提供了快捷集成配置支持。

  1. Celeborn 作为可选服务,需要您在创建集群时或创建集群后主动勾选安装,本文假设您的集群已经安装 Celeborn 服务。

  2. EMR 针对 Spark 引擎提供了快捷集成配置支持,暂不支持 Flink 引擎,您可以参考官方文档配置 Flink 集成 Celeborn 服务。

1 Spark 集成

对于已经安装了 Celeborn 服务的集群,您可以在 EMR 控制台“集群详情 - 服务列表 - Spark”页面点击 “Enable Shuffle Service” 按钮为 Spark 一键配置集成 Celeborn 服务,该配置会在 Spark 服务重启后生效。如果您希望关闭 Spark 与 Celeborn 服务的集成,同样可以通过再次点击“Enable Shuffle Service”按钮,并重启 Spark 服务生效。
Spark 集成 Celeborn 服务配置项说明(配置项位于 spark-defaults.conf 配置文件):

配置项参数值说明
spark.shuffle.managerorg.apache.spark.shuffle.celeborn.SparkShuffleManager固定值
spark.shuffle.service.enabledfalse固定值
spark.celeborn.master.endpointsCeleborn 服务 Master 节点列表,格式为 <celeborn-master-ip>:<celeborn-master-port>,多个以英文逗号 , 分隔

spark.sql.adaptive.enabled

true

可选,启用 Spark AQE,同时关闭 local shuffle reader 以获取更好的性能

spark.sql.adaptive.skewJoin.enabledtrue
spark.sql.adaptive.localShuffleReader.enabledfalse

2 Celeborn 配置

您可以在 EMR 控制台“集群详情 - 服务列表 - Celeborn - 服务参数”页面修改 Celeborn 服务相关配置。常用的配置项如下表所示:

配置项参数值说明
CELEBORN_MASTER_MEMORY2GBMaster 节点堆内存大小
CELEBORN_WORKER_MEMORY1GBWorker 节点堆内存大小
CELEBORN_WORKER_OFFHEAP_MEMORY1GBWorker 节点堆外内存大小
celeborn.storage.activeTypesHDD,SSD存储介质类型,可以是 HDD、SSD 或 HDFS
celeborn.worker.flusher.buffer.size256KWorker 节点单个 fluster 的缓冲区大小

更多关于 Celeborn 的配置项可以参考 官方配置指南