火山引擎 E-MapReduce(EMR)是开源 Hadoop 生态的企业级大数据分析系统,完全兼容开源,为您提供 Hadoop、Spark、Hive、Flink、Hudi、Iceberg 等生态组件集成和管理。详见服务开发指南。
本文将为您介绍在 EMR 控制台创建集群的操作步骤和相关配置。
前提条件
已完成IAM跨服务授权:
- 首次登录 EMR 详情页会提示完成针对(ECS、VPC、EIP等)跨服务授权。
- 通过右上角用户 > 访问控制 > 身份管理>角色右上角搜索栏搜索 "EMR"关键字,确认 “ ServiceRoleForEMR ” 角色生效。
操作步骤
- 登录EMR 控制台。
- 在顶部菜单栏中,根据实际场景,下拉选择地域和项目空间:
- 地域:创建的集群及相应资源均会部署在对应地域内,不可修改。
- 项目空间:系统已自动创建 default 的默认项目,您可通过下方路径,新建属于您的项目空间:
- 通过界面右上角用户 > 访问控制 > 资源管理 > 项目,进入项目界面。
- 单击新建项目按钮,输入项目名、显示名称、备注等信息,完成新建项目。
详见项目配置。
- 在总览界面,单击创建资源按钮。
自定义配置集群
进入创建集群界面后,完成以下配置集群信息,您需要进行软件设置、硬件设置、其他设置、预览确认等配置步骤:
软件设置
配置项 | 说明 |
---|
软件配置 |
分析场景 | 数据分析的场景,EMR 已支持数据湖、实时计算、交互式分析、交互式查询、NoSQL数据库、搜索、数据科学等多种分析场景。 |
集群类型 | 针对不同分析场景,EMR支持的集群类型如下: - 数据湖场景:
- Hadoop:大数据分布式基础框架,适用于离线/实时分析以及数据湖架构等各类大数据场景。
- 实时计算场景:
- Flink:Flink是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算,支持离线或流式数据处理、实时数据分析等。
- Kafka:高性能高扩展消息队列系统,支持流式数据采集和接入,应用于日志采集,实时监控等场景。
- Pulsar:提供多租户、高性能的服务器间消息传递解决方案,支持存算分离的架构。
- 交互式分析场景:
- Presto:MPP架构的开源分布式查询分析引擎,提供高性能的数据查询服务。
- Trino:MPP架构的开源分布式查询分析引擎,支持PB级数据查询分析。
- 交互式查询场景:
- Doris:现代化的MPP分析型数据库,支持实时数据分析、交互式数据分析和探索式数据分析等多种数据分析。
- ClickHouse:是一款用于联机分析的列式数据库管理系统,具有极致压缩率和极速查询性能。被广泛的应用于互联网广告、金融、工业互联网等众多领域。
- StarRocks:是一款高性能分析型数据仓库,使用向量化、MPP 架构、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。
- NoSQL数据库场景:
- HBase:高可靠性、高性能、面向列、可伸缩的分布式存储系统。
- 搜索场景:
- OpenSearch:分布式搜索和分析引擎,解决用户结构化数据探索的需求。
- 数据科学场景:
- TensorFlow:端到端开源机器学习平台,助力研究人员轻松的构建模型进行机器学习生产。
更多类型详细参考集群类型 。 |
产品版本 | EMR软件栈的版本,建议选择EMR最新的软件版本,目前已支持 EMR 2.0.1、2.1.0、2.1.1、3.0.1、3.1.0、3.1.1、3.2.1、3.4.11、3.5.4、3.6.2 等版本,不同的集群类型支持产品版本会有出入,不同版本说明详见版本概述。 |
服务高可用 | 选择集群是否开启高可用服务。
例如:开启高可用,Hadoop 集群会有三个 Master 节点来支持 ResourceManager 和 NameNode 的高可用,生产环境推荐使用高可用部署形态。 说明 目前实时计算场景中 Kafka、Pulsar 集群类型,不支持开启服务高可用模式。 |
必选服务 | 默认的服务组件,不同集群类型,默认的必选服务不同,后期您可以在集群服务列表中启停服务。 |
可选服务 | 根据实际需求选择其他组件服务,被选中的组件会默认启动相关的服务。 |
元数据选择 | 集群中包含 Hive、Ranger、Airflow 等组件时,需设置元数据存储。 - 内置数据库:仅限使用在测试场景下,本地 MySQL 数据库部署在 EMR 集群单节点中,不能保证服务高可用,有稳定性风险,生产场景建议选择外置数据库;
- 外置数据库:用于生产环境的集群,建议使用 独立 RDS MySQL,可以选择使用火山引擎高可用版本的 RDS MySQL 5.7,下拉选择需链接的外置数据源。操作详见元数据链接。
|
高级配置 |
自定义配置 | 集群创建前,可以通过json文件定义集群组件的参数配置,将组件的配置导入集群中。
输入参数的格式如下:[{"serviceName": "xxx", "fileName": "xxx", "key": "xxx", "value": "xxx"}] - serviceName:服务名,需要全部大写。
- fileName:文件名称,实际传参的文件名称,需要去掉后缀。
- key:配置项的名称。
- value:该配置项要设置的具体的值。
|
Hive 根路径类型 | Hadoop 集群类型,您可选择 Hive 根路径类型,支持选择本地 HDFS、对象存储 TOS 两种存储路径类型。 |
Hive 根路径 | 填写 Hive 的根路径信息,即 Hive 默认建表 location,可以在创建集群后修改。可以选择本地HDFS路径或对象存储TOS的路径。
其中 TOS 路径类型,单击右侧按钮,可输入 TOS 桶名称进行搜索。若没有创建对象存储,您可以前往 TOS 控制台进行创建。 |
|
|
|
|
软件配置完成后,单击下一步,进行集群硬件设置。
硬件设置
配置项 | 说明 |
---|
付费设置 |
付费类型 | - 按量付费:一种后付费模式,即先使用再付费,节点可以随时释放。根据实际开通时长,以小时数为单位进行收费,每小时计费一次,适合短期的测试任务或是灵活的动态任务。
- 包年包月:预付费模式,指定时长付费,到期后您可释放或续费操作,您也可以选择开启自动续费功能,减少手动续费的管理成本,避免因忘记续费而导致 EMR 服务中断。
详见计费说明。 |
可用地区 |
可用区 | 指在同一地域内,电力和网络互相独立的物理区域。在同一地域内,可用区与可用区之间内网互通,可用区之间能做到故障隔离,不同区域支持选择的可用区不同,支持选择可用区 A、B、C 三个区域。 - 北京、上海、广州区域支持选择可用区 A、B、C。
- 柔佛区域仅支持可用区 A。
|
网络配置 |
选择项目 | 默认选择全部项目,您可选择对应项目下已部署的资源。 |
私有网络(VPC) | 选择 EMR 集群所在地域的私有网络,建议 EMR 上下游系统在同一个私有网络。
若没有可用的 VPC,单击创建VPC前往新建。 注意 项目选择某个具体项目时,需确保 VPC 也在对应资源项目下。 |
子网 | 子网用于为实例分配主网卡的私网IP地址,通过网卡可实现实例的网络管理,下拉选择对应 VPC 下可用区的子网,若没有可用的子网,单击创建子网前往创建。 注意 子网选择区分可用区,请选择上方对应可用区下的子网段。 |
安全组 | 选择配置的安全组规则,控制组内云服务器的出入流量,详见安全组概述。
您可下拉选择已有的安全组,如需创建新的安全组,单击创建安全组前往控制台创建。 |
访问控制授权 | 默认开通访问控制规则授权,您可以通过 EMR 管理控制台进行大数据组件部署和后续集群的使用、运维和管理等操作。 |
实例设置 |
节点选型配置 | - Master 实例 :主要负责 ResourceManager 和 NameNode 等控制进程的部署。
- Master 节点数量:普通集群默认 1 台;Hadoop高可用集群默认 3 台,Flink、Presto等高可用集群默认开启 2 台。
- 机型选择:支持选择计算型、通用型、内存型三种机型,根据需要选取适用的实例规格。不同机型区分详见云服务器实例规格介绍。
- 系统盘:用来存储云服务器运行的操作系统,支持极速型 SSD 云盘,大小可根据需要调整,容量范围:60~2048 GB。
- 数据盘:用于存储应用数据,支持极速型 SSD 云盘,大小可根据需要调整,容量范围:容量范围:60~32768 GB。
云盘性能详见云盘规格。
- Core实例 :主要负责集群所有数据的存储,创建集群完成后也支持按需进行扩容。
- Core数量:默认2台,根据需要调整。
- 机型选择:支持选择计算型、本地 SSD 型、通用型、内存型、大数据型、GPU计算型 几五种机型,根据需要选取适用的实例规格。不同机型区分详见云服务器实例规格介绍。
- 系统盘:用来存储云服务器运行的操作系统,支持极速型 SSD 云盘,大小可根据需要调整,容量范围:60~2048 GB。
- 数据盘:用于存储应用数据,支持极速型 SSD 云盘,大小可根据需要调整,容量范围:容量范围:60~32768 GB。
云盘性能详见云盘规格。
- Task实例 :不保存数据,调整集群的计算力使用。默认不开启,需要时可自行添加,最高可添加 5个 Task 节点组。
- 挂载公网:支持给 Master、Core、Task 节点组开启挂载公网 IP,集群初始化时自动开通并生成公网 IP,配置在集群节点组上。如果选择不开启挂载公网,则无法通过公网 IP 访问集群。
|
硬件配置完成后,单击 下一步,进行集群其他基础设置。
3.3 其他设置
配置项 | 说明 |
---|
基础信息 |
集群名称 | 集群的名字,长度限制为1~64个字符,仅可使用中文、字母、数字、短划线(-)和下划线(_)。 |
访问凭证 | 该凭证用于远程登陆集群 master 节点的 ECS 机器,您可选择密钥对或密码方式登录。 |
密钥对/密码 | - 密钥对:下拉选择已创建成功的密钥对,或单击 创建密钥对 前往控制台创建,使用详见 密钥对概述。
- 密码:输入集群 Master 节点登录密码
- 长度限制在8~30之间。
- 密码只能由大写字母、小写字母、数字和特殊字符组成,且必须包含至少三项。
- 特殊字符可以使用:`~!@#$%^&*()_-+= |
- 不能以“/”和“$6$”开头。
- 请勿设置过于简单,否则可能被其他用户恶意攻击。建议使用密钥对
|
高级设置 |
引导操作 | 在集群启动时执行引导操作脚本,可以引导操作自定义集群环境,如您需要在 EMR 集群中部署安装第三方组件,可以在集群中的 EMR 组件服务部署前或部署后运行引导操作,自定义集群环境。
详见 引导操作 |
添加用户 | 集群创建时,添加 IAM 用户到集群中,作为集群账号,该用户可用于访问开源大数据软件 WebUI 或在访问开启 LDAP 认证的组件时进行认证,集群创建完成后可在控制台用户管理模块查看和编辑该用户。
详见 用户管理。 |
集群角色 | IAM 角色为 EMR 集群上的 ECS 提供调用访问 TOS 的资源权限。详见角色授权管理。 |
持久化History Server | 持久化 History Server 支持监控集群活动。活动数据存储于集群外,集群和组件服务状态的变化不影响使用。当前支持30天内的活动信息查询。 |
标签 | 标签由区分大小写的键值对组成,设置的标签将应用在本次创建的全部实例和云盘。
您可以选择已有标签;或直接输入创建新的标签,按回车确认。 |
集群所属项目 | 如果您需要将新建的集群分配至新的项目中,可下拉进行选择,或前往火山访问控制中心 新建项目。
详见火山项目资源管理。 |
集群其他设置完成后,单击 下一步,进行集群整体预览确认。
3.4 预览确认
确认项 | 描述 |
---|
集群信息 | 提供并确认创建集群设置的集群名称、元数据选择、部署地区、公网IP等信息。 |
付费类型 | 选择的集群付费类型确认。 |
软件设置 | 提供产品版本、集群类型、部署选项、必选服务、可选服务等软件信息确认。 |
网络配置 | 可用区、VPC、子网及安全组等信息确认。 |
实例配置 | Master、Core 及 Task 节点的数量、规格及磁盘类型及数量确认。 |
高级配置 | 开启自定义配置、引导操作、IAM 用户 等集群高级配置的信息确认。 |
预览确认后,右下角勾选 “我同意 EMR 服务条款” 选项,单击立即创建,完成订单支付步骤,即可进入集群控制台 > 集群列表查看创建的集群,待集群状态更新为运行中,即代表创建成功。
4 快速创建集群
集群创建也支持快速创建模式,在创建集群界面,右上角选择快速创建:
- 完成相应软件配置、付费设置、可用地区、网络配置、实例设置、基础信息等参数配置。
- 勾选服务条款,单击立即创建按钮,即可快速创建集群。
5 使用模板快速创建
集群模版是 EMR 配置中心的一个模块。您可以将之前创建 EMR 集群时提供的集群配置信息保存为集群模版,作为可被复用的集群配置信息。
在创建集群模版后,您可以基于集群模版中的集群配置信息创建新的集群。您还可以在配置中心中对集群模版进行管理。详见集群模板。
- 在创建集群界面右上角,单击使用模板快速创建按钮,在弹窗中选择对应的集群模板名称,单击确定按钮,完成集群模板导入。
- 选择集群模板后,模板中包含的配置信息将在表单中自动填充,您可直接单击下一步,直至进入其他设置,对新集群中的访问凭证进行设置即可。
- 访问凭证设置完成后,您便可依次单击下一步 > 勾选“我同意 EMR 服务条款” > 立即创建,即可完成新集群的创建。