火山引擎E-MapReduce(简称EMR)提供包括基于 ECS 实例、VKE 集群以及 Serverless 架构在内的多种部署模式。不同的部署形态在使用场景、产品特性、计费方式和SLA上有所差异,面向的用户也有所区别。
产品形态 | 服务模式 | 客户运维范围 | 产品运维范围 | 产品特点 |
---|---|---|---|---|
EMR Serverless | 全托管 |
|
|
|
EMR on VKE | 半托管 |
|
|
|
EMR on ECS |
|
|
|
EMR全托管服务,完全兼容开源,具备开箱即用、秒级弹性、免运维、自定义镜像的特性,让用户更专注于业务。EMR Serverless 部署模式适用于云上数据仓库、混合云数仓、大模型数据预处理、大模型离线推理等应用场景。使用Serverless架构用户只需配置算力要求,对底层基础设施细节和运维无需感知。大数据和AI开发者也能轻松使用EMR Serverless服务。
EMR Serverless提供Spark、Ray、Presto、Doris、StarRocks等多引擎全托管服务,100%开源兼容,用户无需关注底层设施维护,可以专注于业务。
支持用户通过设置队列的弹性资源,在预期内和预期外的业务高峰时实现秒级算力扩容,满足用户业务快速增长。使用弹性资源减少常驻固定资源,可以提升整体资源利用率,减少不必要的空闲资源开销。
支持用户基于EMR基础镜像,灵活打入自定义库和Python包,构建满足自身需求的自定义镜像。
支持按量付费、包年包月、包年包月+按量付费三种计费方式。详情请参考EMR Serverless计费项。
EMR基于ECS的半托管模式,提供更全面的Hadoop、Spark等36+个大数据生态组件,计算存储资源归属用户,可登陆ECS进行自定义操作,具备存算分离、分钟级弹性、灵活自运维的特性。这种部署模式允许用户更好地控制基础设施和使用ECS特性,如竞价实例(Spot Instance)、弹性预约实例(ESI)等。这种部署模式优势在于其控制力和灵活性。EMR on ECS 适用于云原生数据湖仓、实时数仓、离线/批量数据分析、实时/流式计算等应用场景。
EMR on ECS部署模式需要用户自行维护底层资源和EMR集群。使用者需要具备大数据运维经验。如遇到产品使用问题可以通过提交工单方式咨询。如需专业的大数据方案和培训服务,可以按需选购,计费方式参考大数据专家服务计费说明。
EMR on ECS提供更全面的Hadoop、Spark等36+个大数据生态组件, 计算和存储资源归属在用户账号下。用户可以登陆ECS自行操作。EMR on ECS同时支持存算分离和存算一体架构,允许数据存储在对象存储(TOS)或者HDFS上。该部署形态支持用户更好地控制基础设施和使用ECS特性,比如弹性伸缩时支持竞价实例(SPOT Instance)和预约弹性实例(ESI)
EMR on ECS支持用户选择部署EMR服务的实例类型和规格。用户可以根据实际业务和成本,综合考虑后选择最优性价比的实例去部署EMR服务。
EMR on ECS提供多种弹性伸缩类型和付费方式,提供分钟级别的弹性能力,支持业务的快速增长。支持时间规格和YARN负载指标两种弹性伸缩类型。支持按量付费、竞价实例(SPOT Instance)、弹性预约实例(ESI)等多种付费方式。
支持用户在EMR控制台通过集群脚本功能,批量选择节点来运行指定脚本,以实现个性化需求。例如,安装第三方软件和修改集群运行环境。
支持用户登陆ECS自行操作,比如环境配置和问题分析。该部署形态计算和存储资源归属在用户账号下,火山引擎EMR团队无权限登陆和操作用户资源和EMR集群,用户需要自行运维EMR服务。EMR控制台提供丰富的监控运维能力,支持节点扩缩容、服务启停、日志查看等功能。强烈建议用户配置关键指标告警,及时处理相关问题。
支持包年包月和按量付费两种计费方式,EMR集群的费用由EMR服务费用、ECS产品费用、TOS产品费用、EBS产品费用和 Master 节点的外网流量费用组成。其中,EMR 服务费用与集群选用的 ECS 实例规格相关。详情请参考EMR on ECS计费项。
运行在容器服务(Volcengine Kubernetes Engine,VKE)上的EMR服务。这种服务允许用户在VKE集群上运行大数据和AI工作负载,实现在线、离线、AI不同Workload的潮汐混部运行,最大程度提升资源利用率,同时具备半托管的灵活性。EMR on VKE 适用于离线/在线/AI混合部署、大模型数据预处理、大模型离线推理等应用场景。
EMR on VKE部署模式需要用户自行维护底层资源和EMR集群。使用者需要具备大数据和K8s运维经验。如遇到产品使用问题可以通过提交工单方式咨询。如需专业的大数据方案和培训服务,可以按需选购,计费方式参考大数据专家服务计费说明。
EMR on VKE提供Spark、Ray、Celeborn、Hive等引擎服务,使用存算分离架构,计算和存储资源归属在用户账号下。用户可以登陆ECS和VKE控制台自行操作。该部署形态支持用户控制基础设施和使用VKE特性,比如节点弹性伸缩和弹性容器实例VCI。
支持用户使用弹性容器实例(VCI)调度Spark等作业,资源按需秒级调度,无需常驻资源。
支持用户将EMR虚拟集群部署在已有VKE集群上,资源引擎由K8S统一调度,实现在线、离线、AI不同Workload的潮汐混部运行,最大程度提升资源利用率。统一底层基础设施和运维体系,避免资源孤岛。
支持用户基于EMR基础镜像,灵活打入自定义库和Python包,构建满足自身需求的自定义镜像。
支持用户登陆VKE控制台自行操作,对VKE集群进行配置和问题分析。该部署形态计算和存储资源归属在用户账号下,火山引擎EMR团队无权登陆和操作用户资源,包括VKE集群和EMR虚拟集群,用户需要自行运维EMR服务。EMR控制台提供丰富的监控运维能力,支持作业监控、Pod资源变配等。强烈建议用户配置关键指标告警,及时处理相关问题。
EMR集群的费用由EMR服务费用、VKE管理费用、ECS产品费用、TOS产品费用、EBS产品费用和外网流量费用组成。其中,EMR 服务费用和EMR虚拟集群实际使用的POD资源规格和数量有关。详情请参考EMR on VKE计费项。