You need to enable JavaScript to run this app.
导航
EMR-2.5.0 版本说明
最近更新时间:2024.08.12 16:48:36首次发布时间:2024.08.12 16:48:36

环境信息

系统环境

版本环境
OSveLinux(Debian 10兼容版)
Python22.7.16
Python33.10.13
JavaByteOpenJDK 1.8.0_351

应用程序版本

应用程序Hadoop集群HBase集群
HDFS2.10.22.10.2
YARN2.10.22.10.2
MapReduce22.10.22.10.2
Hive2.3.9-
Spark22.4.8-
Spark33.5.1-
Tez0.10.1-
Knox1.5.01.5.0
Openldap2.5.132.5.13
Zookeeper3.7.03.7.0
Ossa1.0.0-
HBase1.6.01.6.0
Flink1.16.1-
Presto0.28-
Trino446-
DolphinScheduler3.1.9-
Iceberg1.4.3-
Hudi0.12.2-
DeltaLake3.1.0-
Paimon0.6.1-
Airflow2.7.3-
Hue4.11.0-
Sqoop1.4.7-
Impala3.4.1-
Kudu1.14.0-
Phoenix4.16.14.16.1
Ranger1.2.0-
Flume1.9.0-

发布说明

更改、增强和解决的问题

  • 【组件】新增组件Spark 3.5.1, 用户使用v2.5.0 软件栈可以选择部署Spark 3.5.1或者2.4.8。
  • 【组件】新增组件DeltaLake3.1.0,Paimon0.6.1,仅当部署Spark3.5.1时支持。
  • 【组件】Trino组件版本由412升级至446。
  • 【组件】Airflow组件版本从2.4.2升级至2.7.3。
  • 【组件】Dolphinscheduler组件版本从3.1.7升级至3.1.9。
  • 【租件】Iceberg组件版本从1.2.0升级至1.4.3。
  • 【组件】通过spark.merge.files.enabled和spark.merge.files.number参数可启动和关闭小文件合并,该功能仅对Spark 3.x组件生效。
  • 【组件】优化Spark和Hive开箱参数,根据节点规格动态调整Spark execute CPU和内存资源,支持Hive运行时动态加载 UDF。
  • 【组件】Hive支持SMB(Sort-Merge-Bucket)Join,提升处理大规模数据集时的查询性能。

组件版本

下面列出了 EMR 和此版本一起安装的组件。

组件版本描述
zookeeper_server3.7.0用于维护配置信息、命名、提供分布式同步的集中式服务。
zookeeper_client3.7.0ZooKeeper命令行客户端。
hive_metastore2.3.9Hive元数据存储服务。
hive_server2.3.9用于将 Hive 查询作为 Web 请求接受的服务。
hive_client2.3.9Hive命令行客户端。
hdfs_namenode2.10.2用于跟踪HDFS文件名和数据块的服务。
hdfs_datanode2.10.2存储HDFS数据块的节点服务。
hdfs_secondary_namenode2.10.2对NameNode数据进行周期性合并的服务。
hdfs_client2.10.2HDFS客户端命令行。
hdfs_journalnode2.10.2用于管理 HA 模式下HDFS日志的服务。
hdfs_zkfc2.10.2用户维护HA模式下HDFS NameNode从动态的服务。
hue_server4.11.0用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。
knox_gateway1.5.0用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。
openldap2.5.13后台认证以及用户数据权限管控服务。
ranger_admin1.2.0Ranger安全管理的中心接口服务。
ranger_usersync1.2.0拉取用户和组的Ranger服务。
spark_jobhistoryserver2.4.8/3.5.1用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。
Spark Thrift Server2.4.8/3.5.1基于HiveServer2提供的Thrift服务。
spark_client2.4.8/3.5.1Spark命令行客户端。
livy_server0.8.0提供REST接口来与Spark交互的服务。
sqoop1.4.7提供数据库与HDFS导入导出功能。
iceberg1.4.3Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。
yarn_resourcemanager2.10.2分配和管理集群资源与分布式应用程序的 YARN 服务。
yarn_nodemanager2.10.2管理单个节点上的容器的 YARN 服务。
yarn_client2.10.2YARN命令行客户端。
mapreduce2_historyserver2.10.2保存作业执行信息的MapReduce服务。
mapreduce2_client2.10.2MapReduce命令行客户端。
tez_client0.10.1Tez命令行客户端。
flink_client1.16.1Flink命令行客户端。
airflow_webserver2.7.3Airflow提供的web服务。
airflow_scheduler2.7.3Airflow的调度器。
dolphinscheduler_workerserver3.1.9提供任务执行管理服务,负责执行由MasterServer分发的任务,并提供日志服务。
dolphinscheduler_alterserver3.1.9提供告警服务,通过告警插件的方式实现丰富的告警手段。
dolphinscheduler_masterserver3.1.9负责工作流的管理和编排服务,处理任务的切分和分发,以及任务状态的更新和管理。
dolphinscheduler_apiserver3.1.9提供后端通信端口,处理前端UI层的请求,统一提供RESTful API向外部提供请求服务。
presto_cli0.28Presto命令行客户端。
presto_coordinator0.28Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。
presto_worker0.28Presto中负责所有Query相关数据的计算工作。
trino_cli446Trino命令行客户端。
trino_coordinator446Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。
trino_worker446Trino中负责所有Query相关数据的计算工作。
kerby_server2.0.1Kerberos认证服务。
flume_agent1.9.0Flume中的数据采集工具。
flume_client1.9.0Flume命令行客户端。
catalogd3.4.1Impala元数据服务的应用程序。
statestored3.4.1Impala集群节点管理应用程序。
impalad3.4.1Impala计算节点应用程序。
kudu_tserver1.14.0Kudu存储节点应用程序。
kudu_master1.14.0Kudu元数据和集群节点管理应用程序。