环境 | 版本 | |
---|---|---|
OS | velinux1u3 SMP Debian 5.4.250-2 | |
Spark | Java | 1.8.0_181 |
Spark | Scala | 2.12.18 |
Ray | Java | 1.8.0_351 |
Celeborn | Java | 1.8.0_312 |
Celeborn | Scala | 2.12.15 |
软件 | 版本 |
---|---|
Spark | 3.5.1 |
Ray | 2.22.0 |
Kuberay | 1.1.1 |
Celeborn | 0.3.1 |
HiveMetastore | 3.1.3 |
EMR on VKE 1.5.0及之后版本,部署Ray服务时默认启动Ray HistoryServer,对Ray作业日志进行持久化存储,便于查看和分析历史作业。
EMR on VKE开服Region新增华东2(上海)和亚太东南(柔佛), 已支持华北2(北京)、华东2(上海)和亚太东南(柔佛)。
EMR on VKE对Celeborn进行优化,提供百万级别的Spark Partition Shuffle能力,以满足文本数据预处理场景下百万级Partition需求。
用户在创建EMR虚拟集群时,如果选择部署Spark和HiveMetastore服务,将允许执行Spark SQL作业。EMR on VKE 1.5.0 以前版本仅支持Spark Jar、PySpark等作业类型。
组件 | 描述 |
---|---|
Celeborn Master | 维护Celeborn集群整体状态、活跃Shuffle和高可用 |
Celeborn Worker | 接收、存储和服务Shuffle 数据 |
Spark Operator | 用于在 Kubernetes 集群上部署和管理 Spark 应用程序 |
Spark History Server | Spark的Web UI组件,用于展示已完成的 Spark 作业的详细视图,包括作业的执行时间线、任务详情和资源使用情况 |
Ray Operator | 用于在 Kubernetes 集群上部署和管理 Ray 应用程序 |
HiveMetastore | Hive元数据存储服务 |