You need to enable JavaScript to run this app.
导航
EMR 产品形态选型指南
最近更新时间:2025.01.08 15:04:37首次发布时间:2025.01.08 15:04:37

EMR各形态简介

火山引擎E-MapReduce(简称EMR)提供包括基于 ECS 实例、VKE 集群以及 Serverless 架构在内的多种部署模式。不同的部署形态在使用场景、产品特性、计费方式和SLA上有所差异,面向的用户也有所区别。

产品形态

服务模式

客户运维范围

产品运维范围

产品特点

EMR Serverless

全托管

  • 客户业务作业逻辑的正确性和稳定性
  • 作业执行的基础设施,如计算、存储、网络的稳定性
  • 开源组件服务自身服务的稳定性
  • 产品控制台和OpenAPI的稳定性以及可靠性
  • 客户易于维护,只需要维护业务相关作业
  • 执行环境灵活性比较低

EMR on VKE

半托管

  • 客户业务作业逻辑的正确性和稳定性
  • 开源组件服务自身服务的稳定性
  • 作业执行的基础设施,如K8s集群、存储、网络的稳定性
  • 产品控制台和OpenAPI的稳定性以及可靠性
  • 维护成本相比Serverless形态更高
  • 执行环境灵活度高

EMR on ECS

  • 客户业务作业逻辑的正确性和稳定性
  • 开源组件服务自身服务的稳定性
  • 作业执行的基础设施,如计算、存储、网络的稳定性
  • 产品控制台和OpenAPI的稳定性以及可靠性
  • 维护成本相比Serverless形态更高
  • 执行环境灵活度高

EMR各形态详细说明

EMR Serverless

EMR全托管服务,完全兼容开源,具备开箱即用、秒级弹性、免运维、自定义镜像的特性,让用户更专注于业务。EMR Serverless 部署模式适用于云上数据仓库、混合云数仓、大模型数据预处理、大模型离线推理等应用场景。使用Serverless架构用户只需配置算力要求,对底层基础设施细节和运维无需感知。大数据和AI开发者也能轻松使用EMR Serverless服务。

全托管服务

EMR Serverless提供Spark、Ray、Presto、Doris、StarRocks等多引擎全托管服务,100%开源兼容,用户无需关注底层设施维护,可以专注于业务。

秒级伸缩

支持用户通过设置队列的弹性资源,在预期内和预期外的业务高峰时实现秒级算力扩容,满足用户业务快速增长。使用弹性资源减少常驻固定资源,可以提升整体资源利用率,减少不必要的空闲资源开销。

自定义环境

支持用户基于EMR基础镜像,灵活打入自定义库和Python包,构建满足自身需求的自定义镜像。

SLA

EMR Serverless 服务等级协议

计费方式

支持按量付费、包年包月、包年包月+按量付费三种计费方式。详情请参考EMR Serverless计费项

EMR on ECS

EMR基于ECS的半托管模式,提供更全面的Hadoop、Spark等36+个大数据生态组件,计算存储资源归属用户,可登陆ECS进行自定义操作,具备存算分离、分钟级弹性、灵活自运维的特性。这种部署模式允许用户更好地控制基础设施和使用ECS特性,如竞价实例(Spot Instance)、弹性预约实例(ESI)等。这种部署模式优势在于其控制力和灵活性。EMR on ECS 适用于云原生数据湖仓、实时数仓、离线/批量数据分析、实时/流式计算等应用场景。

EMR on ECS部署模式需要用户自行维护底层资源和EMR集群。使用者需要具备大数据运维经验。如遇到产品使用问题可以通过提交工单方式咨询。如需专业的大数据方案和培训服务,可以按需选购,计费方式参考大数据专家服务计费说明

ECS半托管

EMR on ECS提供更全面的Hadoop、Spark等36+个大数据生态组件, 计算和存储资源归属在用户账号下。用户可以登陆ECS自行操作。EMR on ECS同时支持存算分离和存算一体架构,允许数据存储在对象存储(TOS)或者HDFS上。该部署形态支持用户更好地控制基础设施和使用ECS特性,比如弹性伸缩时支持竞价实例(SPOT Instance)和预约弹性实例(ESI)
EMR on ECS支持用户选择部署EMR服务的实例类型和规格。用户可以根据实际业务和成本,综合考虑后选择最优性价比的实例去部署EMR服务。

分钟级弹性

EMR on ECS提供多种弹性伸缩类型和付费方式,提供分钟级别的弹性能力,支持业务的快速增长。支持时间规格和YARN负载指标两种弹性伸缩类型。支持按量付费、竞价实例(SPOT Instance)、弹性预约实例(ESI)等多种付费方式。

自定义环境

支持用户在EMR控制台通过集群脚本功能,批量选择节点来运行指定脚本,以实现个性化需求。例如,安装第三方软件和修改集群运行环境。

灵活自运维

支持用户登陆ECS自行操作,比如环境配置和问题分析。该部署形态计算和存储资源归属在用户账号下,火山引擎EMR团队无权限登陆和操作用户资源和EMR集群,用户需要自行运维EMR服务。EMR控制台提供丰富的监控运维能力,支持节点扩缩容、服务启停、日志查看等功能。强烈建议用户配置关键指标告警,及时处理相关问题。

SLA

E-MapReduce服务等级协议

计费方式

支持包年包月和按量付费两种计费方式,EMR集群的费用由EMR服务费用、ECS产品费用、TOS产品费用、EBS产品费用和 Master 节点的外网流量费用组成。其中,EMR 服务费用与集群选用的 ECS 实例规格相关。详情请参考EMR on ECS计费项

EMR on VKE

运行在容器服务(Volcengine Kubernetes Engine,VKE)上的EMR服务。这种服务允许用户在VKE集群上运行大数据和AI工作负载,实现在线、离线、AI不同Workload的潮汐混部运行,最大程度提升资源利用率,同时具备半托管的灵活性。EMR on VKE 适用于离线/在线/AI混合部署、大模型数据预处理、大模型离线推理等应用场景。
EMR on VKE部署模式需要用户自行维护底层资源和EMR集群。使用者需要具备大数据和K8s运维经验。如遇到产品使用问题可以通过提交工单方式咨询。如需专业的大数据方案和培训服务,可以按需选购,计费方式参考大数据专家服务计费说明

VKE半托管

EMR on VKE提供Spark、Ray、Celeborn、Hive等引擎服务,使用存算分离架构,计算和存储资源归属在用户账号下。用户可以登陆ECS和VKE控制台自行操作。该部署形态支持用户控制基础设施和使用VKE特性,比如节点弹性伸缩和弹性容器实例VCI。

弹性容器实例(VCI)调度任务

支持用户使用弹性容器实例(VCI)调度Spark等作业,资源按需秒级调度,无需常驻资源。

离线/在线/AI混合部署

支持用户将EMR虚拟集群部署在已有VKE集群上,资源引擎由K8S统一调度,实现在线、离线、AI不同Workload的潮汐混部运行,最大程度提升资源利用率。统一底层基础设施和运维体系,避免资源孤岛。

自定义镜像

支持用户基于EMR基础镜像,灵活打入自定义库和Python包,构建满足自身需求的自定义镜像。

灵活自运维

支持用户登陆VKE控制台自行操作,对VKE集群进行配置和问题分析。该部署形态计算和存储资源归属在用户账号下,火山引擎EMR团队无权登陆和操作用户资源,包括VKE集群和EMR虚拟集群,用户需要自行运维EMR服务。EMR控制台提供丰富的监控运维能力,支持作业监控、Pod资源变配等。强烈建议用户配置关键指标告警,及时处理相关问题。

SLA

E-MapReduce服务等级协议

计费方式

EMR集群的费用由EMR服务费用、VKE管理费用、ECS产品费用、TOS产品费用、EBS产品费用和外网流量费用组成。其中,EMR 服务费用和EMR虚拟集群实际使用的POD资源规格和数量有关。详情请参考EMR on VKE计费项