环境 | 语言 | 版本 |
---|---|---|
OS | velinux1u3 SMP Debian 5.4.250-2 | |
OS | Java | 1.8.0_351 |
Spark | Java | 1.8.0_351 |
Spark | Scala | 2.12.18 |
Ray | Java | 1.8.0_351 |
Celeborn | Java | 1.8.0_351 |
Celeborn | Scala | 2.12.15 |
软件 | 版本 |
---|---|
Spark | 3.5.1 |
Ray | 2.39.0 |
Kuberay | 1.1.1 |
Celeborn | 0.5.0 |
Hive | 3.1.3 |
Zookeeper | 3.7.1 |
Kyuubi | 1.8.1 |
Lance | 0.21.0 |
新增 Lance 湖格式,Lance 是一种高性能的列式存储格式,专为机器学习和数据分析场景设计,适合多模态数据存储和访问。可以使用 EMR Spark 和 Ray 引擎读写 Lance。
从 EMR-3.14.0版本开始,Volcano 服务将从白名单发布改成正式发布,用户无需提工单开白即可在 EMR 上部署和使用Volcano调度服务。Volcano 调度与Kubenete自带调度相比,更适合大数据和批数据处理任务场景。
EMR 容器形态在华东智驾专区上线,提供传统大数据和大模型数据预处理能力。
EMR-3.14.0之前版本仅支持 EMR 虚拟集群创建时开启 Ray HistoryServer。 Ray HistoryServer 是火山EMR对开源 Ray 的引擎增强,支持对已释放的 RayCluster 的任务进行查看和分析。 EMR-3.14.0 以及之后版本支持虚拟集群运行时手动开启 Ray HistoryServer。
支持查看运行时虚拟集群的 Pod 部署,包括节点调度策略,Pod 规格等。
组件 | 描述 |
---|---|
Celeborn Master | 维护 Celeborn 集群整体状态、活跃 Shuffle 和高可用 |
Celeborn Worker | 接收、存储和服务 Shuffle 数据 |
Spark Operator | 用于在 Kubernetes 集群上部署和管理 Spark 应用程序 |
Spark History Server | Spark的Web UI 组件,用于展示已完成的 Spark 作业的详细视图,包括作业的执行时间线、任务详情和资源使用情况 |
Ray Operator | 用于在 Kubernetes 集群上部署和管理 Ray 应用程序 |
HiveMetastore | Hive 元数据存储服务 |
Kyuubi | 分布式、多租户的大数据网关,用于在 Lakehouse 上提供无服务器 SQL 服务 |
Volcano | 提供丰富的调度策略和优化机制,支持机器学习、大数据、科学计算等多种工作负载 |
Zookeeper | 用于维护配置信息、命名、提供分布式同步的集中式服务 |
Lance | 一种高性能的列式存储格式,专为机器学习和数据分析场景设计,适合多模态数据存储和访问 |