环境 | 版本 | |
---|---|---|
OS | velinux1u3 SMP Debian 5.4.250-2 | |
Spark | Java | 1.8.0_181 |
Spark | Scala | 2.12.18 |
Ray | Java | 1.8.0_351 |
Ray | Java | 1.8.0_312 |
Ray | Scala | 2.12.15 |
软件 | 版本 |
---|---|
Spark | 3.5.1 |
Ray | 2.9.3 |
Celeborn | 0.3.1 |
EMR On VKE 支持将自定义 Docker 镜像作为集群中任务的默认工作负载运行时。用户可以从火山引擎镜像仓库获取EMR基础镜像做二次开发,并打包成新的镜像 。当前自定义镜像的范围仅包括Spark和Ray。使用自定义Docker镜像运行作业
EMR支持灵活的Pod调度规则,支持容忍节点上NoExecute、NoSchedule等污点。配置容忍污点后,EMR的Pod Yaml上会有相应配置。EMR新增配置节点的亲和性规则,Pod将调度到满足亲和性条件的节点上。
EMR on VKE支持以OpenAPI方式对虚拟集群和应用进行管理。查看EMR on VKE API列表
from pyarrow import fs import ray ray.init() hdfs_fs = fs.HadoopFileSystem(host='tos://{bucket_name}', ...)
组件 | 描述 |
---|---|
Celeborn Master | 维护Celeborn集群整体状态、活跃Shuffle和高可用 |
Celeborn Worker | 接收、存储和服务Shuffle 数据 |
Spark Operator | 用于在 Kubernetes 集群上部署和管理 Spark 应用程序 |
Spark History Server | Spark的Web UI组件,用于展示已完成的 Spark 作业的详细视图,包括作业的执行时间线、任务详情和资源使用情况 |
Ray Operator | 用于在 Kubernetes 集群上部署和管理 Ray 应用程序 |