本文将为您介绍在火山引擎 E-MapReduce(EMR)控制台上创建集群的详细步骤。
在创建集群界面,右上角单击快速创建按钮,完成以下软件配置、付费设置、可用地区、网络配置、实例设置、基础信息等配置:
集群参数配置:
配置项 | 示例 | 说明 |
---|---|---|
软件配置 | ||
分析场景 | 数据湖 | 数据分析的场景,EMR 已支持数据湖、实时计算、交互式分析、NoSQL、搜索、数据科学等多种分析场景。 |
集群类型 | Hadoop | 默认为 Hadoop 集群类型,针对不同分析场景,您可选择更多类型,详细参考集群类型。 |
产品版本 | EMR-3.1.0 | EMR软件栈的版本,建议选择EMR最新的软件版本,目前已支持 EMR 1.2.1、1.3.1、2.0.1、2.1.0、3.0.1、3.1.0版本,不同版本说明详见产品版本。 |
服务高可用 | 不开启 | 选择集群是否开启高可用服务。开启高可用,Hadoop 集群会有三个 Master 节点来支持 ResourceManager 和 NameNode 的高可用,生产环境推荐使用高可用部署形态。 说明 交互式分析场景下,Presto、Trino 集群类型目前也已支持高可用形式,您可通过提工单,后台联系 EMR 技术支持人员进行白名单开通。 |
必选服务 | HDFS\YARN\Hue\Spark\OpenLDAP 等 | 默认的服务组件,不同集群类型,默认的必选服务不同,后期您可以在集群服务列表中启停服务。 |
可选服务 | 不勾选 | 根据实际需求选择其他组件服务,被选中的组件会默认启动相关的服务。 |
元数据选择 | 内置数据库 |
|
付费设置 | ||
付费类型 | 按量付费 |
详见计费说明。 |
可用地区 | ||
可用区 | 可用区B | 可用区是指在同一地域内,电力和网络互相独立的物理区域。在同一地域内可用区与可用区之间内网互通,可用区之间能做到故障隔离。 |
网络配置 | ||
选择项目 | 全部项目 | 火山引擎为您提供的一套云资源管理方式,用于对云资源进行集中的编排管理。 |
VPC | vpc-rr4e42vtxxxxx | 选择 EMR 集群所在地域的私有网络,建议 EMR 上下游系统在同一个私有网络。 注意 项目选择某个具体项目时,需确保 VPC 也在对应资源项目下。 |
子网 | subnet-rr4e4qk77dvxxxxx | 子网用于为实例分配主网卡的私网IP地址,通过网卡可实现实例的网络管理,下拉选择对应 VPC 下可用区的子网,若没有可用的子网,单击创建子网前往创建。 注意 子网选择区分可用区,请选择上方对应可用区下的子网段。 |
安全组 | Default | 选择配置的安全组规则,控制组内云服务器的出入流量,详见安全组概述。 |
公网IP | 开启 | 开启分配公网 IP 后,集群初始化时自动开通并生成公网 IP,配置在集群 master 实例上。如果选择不开启分配公网 IP,则无法通过公网 IP 访问集群。 |
实例设置 | ||
Master 节点 | 节点数量 1 | 主要负责 ResourceManager 和 NameNode 等控制进程的部署,根据场景需求,选择合适节点数量及机型规格,选型配置详见创建集群。 |
Core 节点 | 节点数量 2 | 主要负责集群所有数据的存储,创建集群完成后也支持按需进行扩容,根据场景需求,选择合适节点数量及机型规格,选型配置详见创建集群。 |
Task 节点(可选) | 不添加 | 不保存数据,调整集群的计算力时使用。默认不开启,需要时可自行添加,最高可添加 5个 Task 节点组。 |
基础信息 | ||
集群名称 | EMR-Hadoop | 输入集群名称,只能包含中文、字母、数字、下划线和中划线。 |
访问凭证 | 密码 | 用于远程登陆集群master节点ECS机器 |
秘钥对/密码 | xxxxxxx | 自定义集群登录密码。 |
集群配置-自定义创建方式,详见创建集群。
配置参数填写完成后,勾选我同意EMR服务条款, 单击立即创建按钮,完成集群创建。
进入集群控制台 > 集群列表查看创建的集群,待集群状态更新为运行中,即代表创建成功。
当前已完成 EMR 集群的创建工作,后续您便可以开始创建并运行 EMR 相关作业。详见创建并运行作业。