本文介绍火山引擎 EMR容器版 各版本功能发布和文档动态,新特性将在各个地域陆续发布,欢迎体验。
功能名称 | 功能概述 | 发布地域 |
---|---|---|
EMR容器版正式商业化 | 自2024年11月1日起,火山引擎EMR容器版从公测阶段转为商业化,商业化后将收取EMR管理费用。北京、上海、广州Region 按照vCPU 0.04 元/核/小时,内存0.004 元/GB/小时收取。 柔佛Region按照 vCPU 0.07 元/核/小时,内存0.007 元/GB/小时收取管理费。 更多详情查看计费说明。 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
集成Volcano调度器,支持可视化调度策略和队列管理 | 用户创建集群时支持对默认调度器进行设置,默认使用Volcano作为调度器。Volcano调度器支持Binpack、Gang等调度策略,相比Kubernete自带的调度器, 对大数据批处理任务更友好,便于管理。 | |
支持通过EMR控制台和OpenAPI提交Spark和Ray作业 | EMR 3.12.0及之后版本支持用户通过EMR控制台和OpenAPI提交Spark和Ray作业。通过EMR作业管理实现一站式的作业全生命周期管理,包括作业提交、状态监控和作业日志分析。 | |
支持对EMR组件Pod进行扩容和规格调整 | 用户可以通过EMR控制台对SparkHistoryServer、CelebornMaster/Worker、RayHistoryServer等组件进行Pod扩容和规格调整,以适应不同业务的高可用、负载变化等需求。 | |
优化服务默认部署策略,允许用户手动调整节点和Pod级别部署策略 | EMR 3.12.0版本开始提供更灵活的组件部署策略。用户在创建EMR虚拟集群时允许手动调整节点和Pod级别的部署策略,以满足各种亲和、反亲和需求。此外,EMR优化了默认部署策略,尽量将相同角色的Pod打散到不同物理节点上,实现服务的高可用,提升整体资源利用。 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈EMR-3.12.0 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
创建EMR虚拟集群时支持新建VKE集群 | EMR-VKE-1.7.0及之后版本支持创建EMR虚拟集群时直接新建VKE集群,对算法工程师或无离在线混合部署需求的用户而言,减少了创建EMR虚拟集群的步骤和复杂度。 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
提供更详细的操作日志 | 提供更丰富的操作信息详细信息,帮助用户分析操作(如创建集群/扩容等)失败原因。 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈EMR-VKE 1.7.0 | 遗留问题 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
使用弹性容器实例VCI调度Spark作业 | 支持使用弹性容器实例(VCI)调度Spark作业,满足业务高峰弹性算力需求,减少常驻资源规模,实现降本。 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
虚拟集群操作日志接入日志中心 | 虚拟集群操作日志接入EMR控制台日志中心,用于日常操作审计和问题排查。 | |
作业监控 | 通过作业管理可以监控虚拟集群上的Spark和Ray作业,支持作业详情和日志详情查看,便于作业问题分析排查。此功能当前为测试阶段。 | |
丰富监控指标 | EMR控制台丰富Spark、Celeborn监控指标,支持接入云上托管版Prometheus,用于日常运维监控。 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈EMR-VKE 1.6.0 | 遗留问题 | 华北2(北京)、华东2(上海)、亚太东南(柔佛)、华南1(广州) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
Ray HistoryServer | 部署EMR Ray服务时默认启动Ray HistoryServer,对Ray作业日志进行持久化存储,便于查看和分析历史作业。 | 华北2(北京)、华东2(上海)、亚太东南(柔佛) |
百万级Partition Shuffle | EMR on VKE对Celeborn进行优化,提供百万级别的Spark Partition Shuffle能力,以满足文本数据预处理场景下百万级Partition需求。 | |
支持Spark SQL作业类型 | 用户在创建EMR虚拟集群时,如果选择部署Spark和HiveMetastore服务,将允许执行Spark SQL作业。EMR on VKE 以前版本仅支持Spark Jar、PySpark等作业类型。 | |
OpenAPI更新 | 可以通过AddComponentInstance接口在安装了Ray的EMR虚拟集群上启动RayCluster。 | |
新Region开服 | EMR on VKE开服Region新增华东2(上海)和亚太东南(柔佛), 已支持华北2(北京)、华东2(上海)和亚太东南(柔佛)。 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈EMR-VKE 1.4.0 | 新功能 【组件】新增HiveMetastore组件,以满足允许Spark SQL作业需求 【组件】Ray软件版本从2.9.3升级至2.22.0 遗留问题 | 华北2(北京)、华东2(上海)、亚太东南(柔佛) |
功能名称 | 功能概述 | 发布地域 |
---|---|---|
自定义镜像 | EMR On VKE 支持将自定义 Docker 镜像作为集群中任务的默认工作负载运行时。用户可以从火山引擎镜像仓库获取EMR基础镜像做二次开发,并打包成新的镜像 。当前自定义镜像的范围仅包括Spark和Ray。使用自定义Docker镜像运行作业 | 华北2(北京) |
灵活的调度规则 | EMR支持灵活的Pod调度规则,支持容忍节点上NoExecute、NoSchedule等污点。配置容忍污点后,EMR的Pod Yaml上会有相应配置。EMR新增配置节点的亲和性规则,Pod将调度到满足亲和性条件的节点上。 | |
OpenAPI发布 | EMR on VKE支持以OpenAPI方式对虚拟集群和应用进行管理。查看EMR on VKE API列表 |
软件栈版本 | 功能描述 | 相关文档 | 发布地域 |
---|---|---|---|
软件栈EMR-VKE 1.3.4 | 遗留问题 【组件】Spark HistoryServer,采用TOS做为event log存储时,若采用Spark Native提交任务时,不支持查看正在执行的Job。同时也不支持查看Local模式下正在执行的SparkJob 【组件】Ray支持以HDFS协议读取TOS, 但定义HDFSFileSystem时需要先执行ray.init(),如下: hdfs_fs = fs.HadoopFileSystem(host='tos://{bucket_name}', ...) 【组件】KubeRay中采用Volcano做调度时会报错,需要升级下KubeRay的镜像,可联系火山工程师进行升级。 | 华北2(北京) |