Celeborn概述--E-MapReduce-火山引擎

文档中心

导航

E-MapReduce

Celeborn概述

最近更新时间：2024.01.29 16:33:20首次发布时间：2024.01.29 16:33:20

Apache Celeborn 是一个面向大数据计算引擎的统一中间数据服务，支持将引擎产生的 Shuffle、Spilled 等中间数据从引擎本身剥离到外置介质存储，并提供对于这些数据的读写和管理服务，从而真正消除计算节点对大容量磁盘的依赖。

1 组件说明

Celeborn 架构如上图所示，整体分为 Master、Worker 和 Client 三类组件：

Master：集群管理节点，提供对于集群的状态管理和资源分配能力，并支持基于 Raft 协议实现 HA 部署。
Worker：集群工作节点，核心在于提供对于 Shuffle 数据的存储、读写，以及管理能力，同时也提供对于集群的流控、健康检查，以及优雅降级等特性。
Client：集群接入客户端，大数据引擎通过 Client 实现与 Celeborn 集群的交互，实现 Shuffle 数据的读写，同时 Client 也提供了对于应用 Shuffle 数据的生命周期管理能力。

EMR 在部署拓扑上将 Celeborn Master 节点部署在 master 节点组上，将 Worker 节点部署在 core 节点组上，并为大数据引擎按照版本提供相应 Celeborn Client 开箱支持。此外，对于启用了 HA 的 EMR 集群而言，Celeborn 默认以 HA 的形式部署，即在 master 节点组所有节点上部署 Celeborn Master 节点。

2 更多信息

接下来，您可以访问：

基础使用：了解 Spark 服务与 Celeborn 的集成，以及常用的 Celeborn 调参配置。
高阶使用：介绍Celeborn On HDFS的使用与集成。

如果您希望了解关于 Celeborn 更多详细信息，可以参考 Celeborn 官方文档。