环境 | 语言 | 版本 |
---|---|---|
OS | velinux1u3 SMP Debian 5.4.250-2 | |
OS | Java | 1.8.0_351 |
Spark | Java | 1.8.0_351 |
Spark | Scala | 2.12.18 |
Ray | Java | 1.8.0_351 |
Celeborn | Java | 1.8.0_351 |
Celeborn | Scala | 2.12.15 |
软件 | 版本 |
---|---|
Spark | 3.5.1 |
Ray | 2.44.0 |
Kuberay | 1.1.2 |
Celeborn | 0.5.0 |
Hive | 3.1.3 |
Zookeeper | 3.7.1 |
Kyuubi | 1.8.1 |
Lance | 0.21.0 |
EMR on VKE 从3.15.0版本开始允许用户在创建 EMR 虚拟集群时部署数据湖加速服务 Proton。目前该功能为白名单功能,您可以通过提工单的方式试用该服务。
Hive 元数据在支持外置 RDS 的基础上,新增支持 LAS Catalog。相比外置 RDS,LAS Catalog 的统一元数据能力,允许在数据湖场景下支持多个计算引擎/产品读取一份对象存储数据。目前 LAS Catalog 支持 EMR 三种形态(EMR Serverless, EMR on VKE, EMR on ECS)和 Serverless Flink,支持 Bytehouse 也即将上线。
机器学习、模型训练用户通常会将代码、数据预处理数据、模型训练数据存储在不同存储产品上,因其数据量、性能在不同阶段场景有所不同。从3.15.0版本开始,EMR 支持 Spark、RayCluster 的 Pod 可以挂载不同存储卷,包括 NAS、vePFS、TOS、EBS 等,支持用户以本地路径的方式访问这些存储。以满足其通过 EMR 快速读写不同存储产品上的数据诉求。
对于常驻的 RayCluster 存在不同负载使用不同资源(CPU 和 GPU 等),且做到负载互相隔离。EMR 支持可视化的对 RayCluster 进行多 WorkerGroup 配置。不同的 WorkerGroup 可以指定不同的资源类型和数量,用户在提交作业时可以指定提交到特定的 WorkerGroup。
作业管理功能正式发布上线,目前支持 EMR on VKE 虚拟集群上的 Spark 和 Ray 作业的提交和查看,包括作业的耗时、资源消耗等,大幅提升作业的可观测性。我们将在后续版本中支持 EMR Serverless 以及 EMR on ECS 的作业管理。
之前 EMR 作业管理的作业提交主要针对 Ray Job(提交任务时拉起 RayCluster,任务结束时释放)。考虑到持续训练、推理场景大多提交任务到常驻的 RayCluster,EMR 作业管理新增支持用户提交 Ray 任务时指定提交到运行中的 RayCluster。你可以通过 OpenAPI 或者控制台提交。
以往您通过 EMR 控制台使用 EMR 基础镜像拉起 RayCluster 时,默认使用最新的版本。现在允许你选择经过 EMR 充分测试的多个版本,以满足您对不同版本的诉求。比如您期望持续使用相同的一个版本,减少新版本引入带来的问题。另外 EMR 提供多种类型的 Ray 镜像,我们按照使用场景分类,包含了一些场景下常用的第三方包,并做了充分的兼容性测试。目前提供 ray、ray-ml、ray-ds 三种类型镜像。
现在支持您通过 EMR 控制台直接对您的容器集群(VKE)进行物理节点扩容。以往如果您选择在已购买的 VKE 集群上部署 EMR 服务,您只能在 VKE 控制台上进行扩容,现在您可以将这些动作统一在 EMR 控制台上操作,减少不必要的产品控制台切换。
组件 | 描述 |
---|---|
Celeborn Master | 维护 Celeborn 集群整体状态、活跃 Shuffle 和高可用 |
Celeborn Worker | 接收、存储和服务 Shuffle 数据 |
Spark Operator | 用于在 Kubernetes 集群上部署和管理 Spark 应用程序 |
Spark History Server | Spark 的 Web UI 组件,用于展示已完成的 Spark 作业的详细视图,包括作业的执行时间线、任务详情和资源使用情况 |
Ray Operator | 用于在 Kubernetes 集群上部署和管理 Ray 应用程序 |
Ray HistoryServer | 支持查看已结束的 Ray 作业运行详情,是对 Dashboard 的补充 |
HiveMetastore | Hive 元数据存储服务 |
Kyuubi | 分布式、多租户的大数据网关,用于在 Lakehouse 上提供无服务器 SQL 服务 |
Volcano | 提供丰富的调度策略和优化机制,支持机器学习、大数据、科学计算等多种工作负载 |
Zookeeper | 用于维护配置信息、命名、提供分布式同步的集中式服务 |
Proton DataServer | Proton 缓存服务 |
Proton MetaServer | Proton 元数据服务 |
Lance | 一种高性能的列式存储格式,专为机器学习和数据分析场景设计,适合多模态数据存储和访问 |