EMR-VKE-1.4.0发布说明--E-MapReduce-火山引擎

文档中心

导航

EMR-VKE-1.4.0发布说明

最近更新时间：2024.06.14 16:09:30首次发布时间：2024.06.14 16:09:30

环境信息

EMR On VKE 支持将自定义 Docker 镜像作为集群中任务的默认工作负载运行时。用户可以从火山引擎镜像仓库获取EMR基础镜像做二次开发，并打包成新的镜像。当前自定义镜像的范围仅包括Spark和Ray。使用自定义Docker镜像运行作业

EMR支持灵活的Pod调度规则，支持容忍节点上NoExecute、NoSchedule等污点。配置容忍污点后，EMR的Pod Yaml上会有相应配置。EMR新增配置节点的亲和性规则，Pod将调度到满足亲和性条件的节点上。

EMR on VKE支持以OpenAPI方式对虚拟集群和应用进行管理。查看EMR on VKE API列表

Spark HistoryServer，采用TOS做为event log存储时，若采用Spark Native提交任务时，不支持查看正在执行的Job。同时也不支持查看Local模式下正在执行的SparkJob
Ray支持以HDFS协议读取TOS，但定义HDFSFileSystem时需要先执行ray.init()，如下：

from pyarrow import fs
import ray
ray.init()
hdfs_fs = fs.HadoopFileSystem(host='tos://{bucket_name}', ...)

组件	描述
Celeborn Master	维护Celeborn集群整体状态、活跃Shuffle和高可用
Celeborn Worker	接收、存储和服务Shuffle 数据
Spark Operator	用于在 Kubernetes 集群上部署和管理 Spark 应用程序
Spark History Server	Spark的Web UI组件，用于展示已完成的 Spark 作业的详细视图，包括作业的执行时间线、任务详情和资源使用情况
Ray Operator	用于在 Kubernetes 集群上部署和管理 Ray 应用程序