EMR-3.15.0发布说明--E-MapReduce-火山引擎

文档中心

导航

E-MapReduce

EMR-3.15.0发布说明

最近更新时间：2025.04.17 16:35:07首次发布时间：2025.04.17 16:35:07

环境说明

系统环境

环境	语言	版本
OS		velinux1u3 SMP Debian 5.4.250-2
OS	Java	1.8.0_351
Spark	Java	1.8.0_351
Spark	Scala	2.12.18
Ray	Java	1.8.0_351
Celeborn	Java	1.8.0_351
Celeborn	Scala	2.12.15

应用程序版本

软件	版本
Spark	3.5.1
Ray	2.44.0
Kuberay	1.1.2
Celeborn	0.5.0
Hive	3.1.3
Zookeeper	3.7.1
Kyuubi	1.8.1
Lance	0.21.0

EMR-3.15.0发布说明

新增功能

新增数据湖加速服务 Proton（白名单）

EMR on VKE 从3.15.0版本开始允许用户在创建 EMR 虚拟集群时部署数据湖加速服务 Proton。目前该功能为白名单功能，您可以通过提工单的方式试用该服务。

Hive 元数据支持使用 LAS Catalog

Hive 元数据在支持外置 RDS 的基础上，新增支持 LAS Catalog。相比外置 RDS，LAS Catalog 的统一元数据能力，允许在数据湖场景下支持多个计算引擎/产品读取一份对象存储数据。目前 LAS Catalog 支持 EMR 三种形态（EMR Serverless， EMR on VKE， EMR on ECS）和 Serverless Flink，支持 Bytehouse 也即将上线。

支持挂载存储卷(PVC)

机器学习、模型训练用户通常会将代码、数据预处理数据、模型训练数据存储在不同存储产品上，因其数据量、性能在不同阶段场景有所不同。从3.15.0版本开始，EMR 支持 Spark、RayCluster 的 Pod 可以挂载不同存储卷，包括 NAS、vePFS、TOS、EBS 等，支持用户以本地路径的方式访问这些存储。以满足其通过 EMR 快速读写不同存储产品上的数据诉求。

支持 RayCluster 配置多 WorkerGroup

对于常驻的 RayCluster 存在不同负载使用不同资源（CPU 和 GPU 等），且做到负载互相隔离。EMR 支持可视化的对 RayCluster 进行多 WorkerGroup 配置。不同的 WorkerGroup 可以指定不同的资源类型和数量，用户在提交作业时可以指定提交到特定的 WorkerGroup。

作业管理正式发布

作业管理功能正式发布上线，目前支持 EMR on VKE 虚拟集群上的 Spark 和 Ray 作业的提交和查看，包括作业的耗时、资源消耗等，大幅提升作业的可观测性。我们将在后续版本中支持 EMR Serverless 以及 EMR on ECS 的作业管理。

更新、增强和解决的问题

通过 OpenAPI 和控制台作业提交，支持将 Ray 任务提交到运行中的 RayCluster

之前 EMR 作业管理的作业提交主要针对 Ray Job（提交任务时拉起 RayCluster，任务结束时释放）。考虑到持续训练、推理场景大多提交任务到常驻的 RayCluster，EMR 作业管理新增支持用户提交 Ray 任务时指定提交到运行中的 RayCluster。你可以通过 OpenAPI 或者控制台提交。

更灵活的 RayCluster 镜像选择

以往您通过 EMR 控制台使用 EMR 基础镜像拉起 RayCluster 时，默认使用最新的版本。现在允许你选择经过 EMR 充分测试的多个版本，以满足您对不同版本的诉求。比如您期望持续使用相同的一个版本，减少新版本引入带来的问题。另外 EMR 提供多种类型的 Ray 镜像，我们按照使用场景分类，包含了一些场景下常用的第三方包，并做了充分的兼容性测试。目前提供 ray、ray-ml、ray-ds 三种类型镜像。

资源类型为已有 VKE 的 EMR 虚拟集群，可以通过 EMR 控制台物理扩容节点

现在支持您通过 EMR 控制台直接对您的容器集群（VKE）进行物理节点扩容。以往如果您选择在已购买的 VKE 集群上部署 EMR 服务，您只能在 VKE 控制台上进行扩容，现在您可以将这些动作统一在 EMR 控制台上操作，减少不必要的产品控制台切换。

遗留问题

创建 EMR 虚拟集群时如果选择新建 VKE 资源，暂不支持部署 Kyuubi 和 Zookeeper 服务，待后续版本支持。

组件说明

组件	描述
Celeborn Master	维护 Celeborn 集群整体状态、活跃 Shuffle 和高可用
Celeborn Worker	接收、存储和服务 Shuffle 数据
Spark Operator	用于在 Kubernetes 集群上部署和管理 Spark 应用程序
Spark History Server	Spark 的 Web UI 组件，用于展示已完成的 Spark 作业的详细视图，包括作业的执行时间线、任务详情和资源使用情况
Ray Operator	用于在 Kubernetes 集群上部署和管理 Ray 应用程序
Ray HistoryServer	支持查看已结束的 Ray 作业运行详情，是对 Dashboard 的补充
HiveMetastore	Hive 元数据存储服务
Kyuubi	分布式、多租户的大数据网关，用于在 Lakehouse 上提供无服务器 SQL 服务
Volcano	提供丰富的调度策略和优化机制，支持机器学习、大数据、科学计算等多种工作负载
Zookeeper	用于维护配置信息、命名、提供分布式同步的集中式服务
Proton DataServer	Proton 缓存服务
Proton MetaServer	Proton 元数据服务
Lance	一种高性能的列式存储格式，专为机器学习和数据分析场景设计，适合多模态数据存储和访问