You need to enable JavaScript to run this app.
导航
EMR-3.14.0发布说明
最近更新时间:2025.04.17 16:08:00首次发布时间:2025.04.17 16:08:00
我的收藏
有用
有用
无用
无用

环境说明

系统环境

环境

语言

版本

OS

velinux1u3 SMP Debian 5.4.250-2

OS

Java

1.8.0_351

Spark

Java

1.8.0_351

Spark

Scala

2.12.18

Ray

Java

1.8.0_351

Celeborn

Java

1.8.0_351

Celeborn

Scala

2.12.15

应用程序版本

软件

版本

Spark

3.5.1

Ray

2.39.0

Kuberay

1.1.1

Celeborn

0.5.0

Hive

3.1.3

Zookeeper

3.7.1

Kyuubi

1.8.1

Lance

0.21.0

EMR-3.14.0发布说明

新增功能

  • 新增湖格式Lance

新增 Lance 湖格式,Lance 是一种高性能的列式存储格式,专为机器学习和数据分析场景设计,适合多模态数据存储和访问。可以使用 EMR Spark 和 Ray 引擎读写 Lance。

  • Volcano服务正式化发布

从 EMR-3.14.0版本开始,Volcano 服务将从白名单发布改成正式发布,用户无需提工单开白即可在 EMR 上部署和使用Volcano调度服务。Volcano 调度与Kubenete自带调度相比,更适合大数据和批数据处理任务场景。

  • 上线华东智驾专区

EMR 容器形态在华东智驾专区上线,提供传统大数据和大模型数据预处理能力。

更新、增强和解决的问题

  • EMR 虚拟集群运行时支持开启 RayHistoryServer

EMR-3.14.0之前版本仅支持 EMR 虚拟集群创建时开启 Ray HistoryServer。 Ray HistoryServer 是火山EMR对开源 Ray 的引擎增强,支持对已释放的 RayCluster 的任务进行查看和分析。 EMR-3.14.0 以及之后版本支持虚拟集群运行时手动开启 Ray HistoryServer。

  • 虚拟集群支持查看 Pod 部署详情

支持查看运行时虚拟集群的 Pod 部署,包括节点调度策略,Pod 规格等。

遗留问题

  • 创建 EMR 虚拟集群时如果选择新建 VKE 资源,暂不支持部署 Kyuubi 和 Zookeeper 服务,待后续版本支持。

组件说明

组件

描述

Celeborn Master

维护 Celeborn 集群整体状态、活跃 Shuffle 和高可用

Celeborn Worker

接收、存储和服务 Shuffle 数据

Spark Operator

用于在 Kubernetes 集群上部署和管理 Spark 应用程序

Spark History Server

Spark的Web UI 组件,用于展示已完成的 Spark 作业的详细视图,包括作业的执行时间线、任务详情和资源使用情况

Ray Operator

用于在 Kubernetes 集群上部署和管理 Ray 应用程序

HiveMetastore

Hive 元数据存储服务

Kyuubi

分布式、多租户的大数据网关,用于在 Lakehouse 上提供无服务器 SQL 服务

Volcano

提供丰富的调度策略和优化机制,支持机器学习、大数据、科学计算等多种工作负载

Zookeeper

用于维护配置信息、命名、提供分布式同步的集中式服务

Lance

一种高性能的列式存储格式,专为机器学习和数据分析场景设计,适合多模态数据存储和访问