本文介绍火山引擎 EMR 容器版各版本功能发布和文档动态,新特性将在各个地域陆续发布,欢迎体验。
功能名称 | 功能概述 | 发布地域 |
---|---|---|
Volcano 服务正式化发布 | 从 EMR-3.14.0 版本开始,Volcano 服务将从白名单发布改成正式发布,用户无需提工单开白即可在 EMR 上部署和使用 Volcano 调度服务。Volcano 调度与Kubernetes自带调度相比,更适合大数据和批数据处理任务场景 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
华东智驾专区上线 | EMR 容器形态在华东智驾专区上线,提供传统大数据和大模型数据预处理能力 | |
EMR 虚拟集群运行时支持开启 RayHistoryServer | EMR-3.14.0 之前版本仅支持EMR虚拟集群创建时开启 Ray HistoryServer。 Ray HistoryServer 是火山 EMR 对开源 Ray 的引擎增强,支持对已释放的 RayCluster 的任务进行查看和分析。 EMR-3.14.0以及之后版本支持虚拟集群运行时手动开启 Ray HistoryServer | |
虚拟集群支持查看 Pod 部署详情 | 支持查看运行时 EMR 虚拟集群的Pod部署,包括节点调度策略,Pod 规格等 |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
新增弹性伸缩功能 | EMR 虚拟集群支持容器服务(VKE)的节点弹性伸缩能力,当节点池开启用弹性伸缩时,节点上的 Pod 因为资源不足处于 Pending 状态时触发自动扩容动作。用户通过 EMR 控制台可以查看和修改节点池弹性伸缩启用状态,查看扩缩容记录。弹性伸缩在后续的版本中将支持使用弹性容器实例 VCI 作为弹性算力 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
弹性容器实例 VCI 调度 Spark 和 Ray 作业开箱即用 | EMR-VKE-1.7.0及之前版本允许用户在创建虚拟集群时选择使用弹性容器实例(VCI)调度Spark作业。从 EMR-VKE-1.8.0开始,允许用户在创建虚拟集群时选择使用 VCI 调度 Ray 作业。使用 VCI 调度 Spark 和 Ray 作业,无需预留固定资源,可以大幅减少资源成本 | |
OpenAPI 支持作业的查看和提交 | 从 EMR-VKE-1.8.0开始,允许用户通过 OpenAPI 的方式提交和查看 Spark 和 Ray 作业。用户在工作流中通过 EMR OpenAPI 提交作业后,可通过 EMR 控制台监控和分析运行中和已完成的作业 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈 EMR-3.13.0 | 引擎能力优化Ray
Spark
| 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
EMR 容器版正式商业化 | 自2024年11月1日起,火山引擎 EMR 容器版从公测阶段转为商业化,商业化后将收取EMR管理费用。北京、上海、广州 Region 按照 vCPU 0.04 元/核/小时,内存0.004 元/GB/小时收取。 柔佛 Region 按照 vCPU 0.07 元/核/小时,内存0.007 元/GB/小时收取管理费。 更多详情查看计费说明 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
集成 Volcano 调度器,支持可视化调度策略和队列管理 | 用户创建集群时支持对默认调度器进行设置,默认使用 Volcano 作为调度器。Volcano 调度器支持 Binpack、Gang等调度策略,相比 Kubernete 自带的调度器, 对大数据批处理任务更友好,便于管理 | |
支持通过 EMR 控制台和 OpenAPI 提交 Spark 和 Ray 作业 | EMR 3.12.0及之后版本支持用户通过 EMR 控制台和 OpenAPI 提交 Spark 和 Ray 作业。通过 EMR 作业管理实现一站式的作业全生命周期管理,包括作业提交、状态监控和作业日志分析 | |
支持对 EMR 组件 Pod 进行扩容和规格调整 | 用户可以通过 EMR 控制台对 SparkHistoryServer、CelebornMaster/Worker、RayHistoryServer 等组件进行 Pod 扩容和规格调整,以适应不同业务的高可用、负载变化等需求 | |
优化服务默认部署策略,允许用户手动调整节点和 Pod 级别部署策略 | EMR 3.12.0版本开始提供更灵活的组件部署策略。用户在创建 EMR 虚拟集群时允许手动调整节点和 Pod 级别的部署策略,以满足各种亲和、反亲和需求。此外,EMR 优化了默认部署策略,尽量将相同角色的 Pod 打散到不同物理节点上,实现服务的高可用,提升整体资源利用 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈 EMR-3.12.0 | _ | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
创建 EMR 虚拟集群时支持新建VKE集群 | EMR-VKE-1.7.0及之后版本支持创建 EMR 虚拟集群时直接新建 VKE 集群,对算法工程师或无离在线混合部署需求的用户而言,减少了创建 EMR 虚拟集群的步骤和复杂度 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
提供更详细的操作日志 | 提供更丰富的操作信息详细信息,帮助用户分析操作(如创建集群/扩容等)失败原因 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈 EMR-VKE 1.7.0 | 遗留问题 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
使用弹性容器实例 VCI调度 Spark 作业 | 支持使用弹性容器实例(VCI)调度 Spark 作业,满足业务高峰弹性算力需求,减少常驻资源规模,实现降本 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
虚拟集群操作日志接入日志中心 | 虚拟集群操作日志接入 EMR 控制台日志中心,用于日常操作审计和问题排查 | |
作业监控 | 通过作业管理可以监控虚拟集群上的 Spark 和 Ray 作业,支持作业详情和日志详情查看,便于作业问题分析排查。此功能当前为测试阶段 | |
丰富监控指标 | EMR 控制台丰富 Spark、Celeborn 监控指标,支持接入云上托管版 Prometheus,用于日常运维监控 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈 EMR-VKE 1.6.0 | 遗留问题 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
Ray HistoryServer | 部署 EMR Ray 服务时默认启动 Ray HistoryServer,对 Ray 作业日志进行持久化存储,便于查看和分析历史作业 | 华北2(北京)、华东2(上海)、亚太东南(柔佛) |
百万级 Partition Shuffle | EMR on VKE 对 Celeborn 进行优化,提供百万级别的 Spark Partition Shuffle 能力,以满足文本数据预处理场景下百万级 Partition 需求 | |
支持 Spark SQL 作业类型 | 用户在创建 EMR 虚拟集群时,如果选择部署 Spark 和 HiveMetastore 服务,将允许执行 Spark SQL 作业。EMR on VKE 以前版本仅支持 Spark Jar、PySpark 等作业类型 | |
OpenAPI 更新 | 可以通过 AddComponentInstance 接口在安装了 Ray 的 EMR 虚拟集群上启动 RayCluster | |
新 Region 开服 | EMR on VKE 开服 Region 新增华东2(上海)和亚太东南(柔佛), 已支持华北2(北京)、华东2(上海)和亚太东南(柔佛) |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈 EMR-VKE 1.4.0 | 新功能 【组件】新增 HiveMetastore 组件,以满足允许 Spark SQL 作业需求 【组件】Ray 软件版本从2.9.3升级至2.22.0 遗留问题 | 华北2(北京)、华东2(上海)、亚太东南(柔佛) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
自定义镜像 | EMR On VKE 支持将自定义 Docker 镜像作为集群中任务的默认工作负载运行时。用户可以从火山引擎镜像仓库获取EMR基础镜像做二次开发,并打包成新的镜像 。当前自定义镜像的范围仅包括Spark和Ray。使用自定义Docker镜像运行作业 | 华北2(北京) |
灵活的调度规则 | EMR 支持灵活的Pod 调度规则,支持容忍节点上 NoExecute、NoSchedule 等污点。配置容忍污点后,EMR的Pod Yaml 上会有相应配置。EMR 新增配置节点的亲和性规则,Pod 将调度到满足亲和性条件的节点上 | |
OpenAPI 发布 | EMR on VKE 支持以 OpenAPI 方式对虚拟集群和应用进行管理。查看EMR on VKE API列表 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈 EMR-VKE 1.3.4 | 遗留问题 【组件】Ray 支持以 HDFS 协议读取 TOS, 但定义 HDFSFileSystem 时需要先执行 ray.init(),如下: hdfs_fs = fs.HadoopFileSystem(host='tos://{bucket_name}', ...) 【组件】KubeRay 中采用 Volcano 做调度时会报错,需要升级下 KubeRay 的镜像,可联系火山工程师进行升级 | 华北2(北京) |