版本 | 环境 |
---|---|
OS | veLinux(Debian 10兼容版) |
Python2 | 2.7.16 |
Python3 | 3.7.3 |
Java | ByteOpenJDK 1.8.0_302 |
Hadoop集群 | |
---|---|
Flume | 1.9.0 |
OpenLDAP | 2.4.58 |
Ranger | 1.2.0 |
ZooKeeper | 3.7.0 |
Flink | 1.15.1 |
HDFS | 2.10.2 |
MapReduce2 | 2.10.2 |
YARN | 2.10.2 |
Airflow | 2.2.0 |
Hive | 2.3.9 |
Hue | 4.9.0 |
Knox | 1.5.0 |
Presto | 0.267 |
Trino | 365 |
Spark | 3.2.1 |
Sqoop | 1.4.7 |
Tez | 0.10.1 |
Iceberg | 0.12.0 |
Impala | 3.4.1 |
Kudu | 1.14.0 |
以下发布说明包括有关 EMR V2.0.0 的信息。EMR V2.0.0为火山引擎EMR V2.0.x的第一个版本,也是带有Hadoop 2.x软件包的第一个EMR版本,目前 EMR V2.0.0已处于下线状态,我们推荐您创建 EMR V2.0.1的集群版本,详见 EMR-V2.0.1版本说明。
发布日期: 2022 年 10 月 11 日
【通用】集群内hostname解析接入PrivateZone,不再依赖/etc/hosts:
集群内通信可以使用长短hostname:emr-master-1和emr-2tfyq6eeoq5g1j17w0zo-master-1
集群所在VPC内与集群内ECS通信可以使用完整的域名(见节点管理-节点组列表的DNS列)如:emr-2tfyq6eeoq5g1j17w0zo-master-1.cn-beijing.emr-13fy9kueufzsw3n6nu56wmf71.internal
【通用】支持IAM用户管理,可导入IAM用户,重置密码。
【集群】支持集群服务管理,如添加服务,服务/组件启动和停止,服务常用参数配置。
【集群】支持集群运维管理,如集群扩容、释放,机器组管理,告警管理,查看集群操作日志。
【集群】集群服务上下线:支持将某一节点上的一个组件下线(当组件实例数达到最小数量限制时就不能再继续下线。
【集群】弹性伸缩 白名单发布:
支持多种伸缩场景
弹性扩展,用户根据自己的业务需求自动调整其弹性计算资源,在满足业务需求高峰增长时无缝地增加ECS实例;
弹性收缩,用户根据自己的业务需求自动调整其弹性计算资源,在业务需求下降时自动减少ECS实例以节约成本;
弹性自愈,用户根据自己的业务需求自动替换不健康的ECS实例使业务始终保持正常的负载,为业务保驾护航。
支持多种伸缩策略
固定数量模式,通过“最小实例数”属性,可以让您始终保持健康运行的ECS实例数量,自动替换不健康实例,以保证日常场景实时可用;
定时伸缩模式,配置定时任务,一次性在固定时间增加或减少ECS实例,适合于突发性的且业务需求比较明确的场景;
周期伸缩模式,配置周期性任务,定时地增加或减少ECS实例,适合于比较稳定的业务预期;
【集群】适配DataLeap:支持与大数据研发治理套件绑定,提供集数据集成、开发、运维、治理、资产管理于一生的大数据中台解决方法,支持Spark、Hive等作业开发(不包括Flink引擎相关的开发)。
【组件】支持HDFS、YARN HA(高可用)模式,当Master节点上一个实例挂掉时,服务仍可正常运行。
【组件】支持读取TOS、CFS:
Hadoop 客户端新增读写TOS数据的能力;Hive可使用TOS作为数据存储介质。
支持多种方式访问TOS:自定义配置方式配置AK/SK、环境变量配置AK/SK和对VEECSforEMRRole角色授权TOS访问权限
【组件】基于Ranger提供HDFS、YARN、Hive组件的权限访问控制。
高可用模式下master2节点宕机时,LDAP启动时会偶现失败。临时解决方法:重启未宕机的master节点上的ambari server即可。
高可用模式下master2节点宕机时,执行Hive、Spark等作业非常缓慢。临时解决方法:调整HDFS的配置参数dfs.ha.namenodes.emr-cluster中的master1和matser2顺序即可。
日志中心中部分组件日志为空,如YARN组件。可以通过登录到EMR集群的对应ECS节点上查看相应组件的日志。
下面列出了 EMR 和此版本一起安装的组件。
组件 | 版本 | 描述 |
---|---|---|
zookeeper_server | 3.7.0 | 用于维护配置信息、命名、提供分布式同步的集中式服务。 |
zookeeper_client | 3.7.0 | ZooKeeper命令行客户端。 |
hive_metastore | 2.3.9 | Hive元数据存储服务。 |
hive_server | 2.3.9 | 用于将 Hive 查询作为 Web 请求接受的服务。 |
hive_client | 2.3.9 | Hive命令行客户端。 |
hdfs_namenode | 2.10.2 | 用于跟踪HDFS文件名和数据块的服务。 |
hdfs_datanode | 2.10.2 | 存储HDFS数据块的节点服务。 |
hdfs_secondary_namenode | 2.10.2 | 对NameNode数据进行周期性合并的服务。 |
hdfs_client | 2.10.2 | HDFS客户端命令行。 |
hdfs_journalnode | 2.10.2 | 用于管理 HA 模式下HDFS日志的服务。 |
hdfs_zkfc | 2.10.2 | 用户维护HA模式下HDFS NameNode从动态的服务。 |
hue_server | 4.9.0 | 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。 |
knox_gateway | 1.5.0 | 用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。 |
openldap | 2.4.58 | 后台认证以及用户数据权限管控服务。 |
ranger_admin | 1.2.0 | Ranger安全管理的中心接口服务。 |
ranger_usersync | 1.2.0 | 拉取用户和组的Ranger服务。 |
spark_jobhistoryserver | 3.2.1 | 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。 |
ksana | 1.0 | 为字节EMR团队自研组件,定位于SparkSQL数据仓库构建引擎,取代了Spark Thrift Server,兼容Hive的使用方式。 |
spark_client | 3.2.1 | Spark命令行客户端。 |
livy_server | 3.2.1 | 提供REST接口来与Spark交互的服务。 |
sqoop | 1.4.7 | 提供数据库与HDFS导入导出功能。 |
iceberg | 0.12.0 | Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。 |
yarn_resourcemanager | 2.10.2 | 分配和管理集群资源与分布式应用程序的 YARN 服务。 |
yarn_nodemanager | 2.10.2 | 管理单个节点上的容器的 YARN 服务。 |
yarn_client | 2.10.2 | YARN命令行客户端。 |
mapreduce2_historyserver | 2.10.2 | 保存作业执行信息的MapReduce服务。 |
mapreduce2_client | 2.10.2 | MapReduce命令行客户端。 |
tez_client | 0.10.1 | Tez命令行客户端。 |
flink_client | 1.11.3 | Flink命令行客户端。 |
airflow_webserver | 2.2.0 | Airflow提供的web服务。 |
airflow_scheduler | 2.2.0 | Airflow的调度器。 |
presto_cli | 0.267 | Presto命令行客户端。 |
presto_coordinator | 0.267 | Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。 |
presto_worker | 0.267 | Presto中负责所有Query相关数据的计算工作。 |
trino_cli | 365 | Trino命令行客户端。 |
trino_coordinator | 365 | Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。 |
trino_worker | 365 | Trino中负责所有Query相关数据的计算工作。 |
kerby_server | 2.0.1 | Kerberos认证服务。 |
flume_agent | 1.9.0 | Flume中的数据采集工具。 |
flume_client | 1.9.0 | Flume命令行客户端。 |
catalogd | 3.4.1 | Impala元数据服务的应用程序。 |
statestored | 3.4.1 | Impala集群节点管理应用程序。 |
impalad | 3.4.1 | Impala计算节点应用程序。 |
kudu_tserver | 1.14.0 | Kudu存储节点应用程序。 |
kudu_master | 1.14.0 | Kudu元数据和集群节点管理应用程序。 |