版本 | 环境 |
---|---|
OS | veLinux(Debian 10兼容版) |
Python2 | 2.7.16 |
Python3 | 3.10.13 |
Java | 1.8.0_351 |
Hadoop集群 | Flink集群 | Kafka集群 | Pulsar集群 | Presto集群 | Trino集群 | HBase集群 | Doris集群 | StarRocks集群 | |
---|---|---|---|---|---|---|---|---|---|
HDFS | 3.3.6 | 3.3.6 | 3.3.6 | 3.3.6 | 3.3.6 | ||||
YARN | 3.3.6 | 3.3.6 | 3.3.6 | ||||||
MapReduce2 | 3.3.6 | 3.3.6 | 3.3.6 | ||||||
Hive | 3.1.3 | 3.1.3 | 3.1.3 | ||||||
Spark | 3.5.1 | ||||||||
Tez | 0.10.2 | ||||||||
Knox | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | |||
Openldap | 2.5.13 | 2.5.13 | 2.5.13 | 2.5.13 | 2.5.13 | 2.5.13 | |||
Zookeeper | 3.7.3 | 3.7.3 | 3.7.3 | 3.7.3 | 3.7.3 | 3.7.3 | 3.7.3 | ||
Ossa | 1.0.0 | 1.0.0 | 1.0.0 | 1.0.0 | |||||
Kafka | 3.2.4 | ||||||||
Pulsar | 3.0.1 | ||||||||
Doris | 1.2.5和2.0.14 | ||||||||
StarRocks | 2.5.13和3.2.11 | ||||||||
BookKeeper | 4.16.2 | ||||||||
HBase | 2.5.2 | 2.5.2 | |||||||
Celeborn | 0.3.1 | ||||||||
Flink | 1.16.1 | 1.16.1 | |||||||
Presto | 0.280 | 0.280 | |||||||
Trino | 432 | 432 | |||||||
DolphinScheduler | 3.1.9 | ||||||||
Iceberg | 2.0.01.6.1 | ||||||||
Delta Lake | 3.1.0 | ||||||||
Hudi | 0.14.1 | ||||||||
Airflow | 2.7.3 | 2.7.3 | 2.7.3 | ||||||
Hue | 4.11.0 | 4.11.0 | 4.11.0 | ||||||
Kyuubi | 1.8.0 | ||||||||
Sqoop | 1.4.7 | ||||||||
Impala | 3.4.1 | ||||||||
Kudu | 1.14.0 | ||||||||
Phoenix | 5.1.3 | 5.1.3 | |||||||
Ranger | 2.3.0 | 2.3.0 | 2.3.0 | 2.3.0 | 2.3.0 | 2.3.0 | |||
Flume | 1.9.0 | 1.9.0 | 1.9.0 | ||||||
GTS | 1.0.0 | ||||||||
Proton | 2.1.3 | 2.1.3 | 2.1.3 | 2.1.3 | |||||
Paimon | 0.6.1 | 0.6.1 |
组件由3.3.4版本升级到3.3.6。更多开源特性请参考Apache Hadoop 3.3.6 发行说明。
组件由 3.7.0版本升级到3.7.3 。修复了“缺少ACL检查”带来的安全问题。
更多开源特性请参考发行说明 - ZooKeeper - 版本 3.7.3。
组件由 1.9.0版本升级到2.1.3。新增特性请参考Proton 发行版本。
组件由3.2.7版本升级到3.2.11。StarRocks Bypass Load新增支持对于复杂数据类型(Array/Map/Struct)的读写,支持写入 List 分区表。
更多开源特性请参考StarRocks version 3.2.11版本说明。
组件由 2.0.10版本升级到2.0.14。版本优化如下:
更多开源特性请参考Apache Doris version 2.0.14。
下面列出了 EMR 和此版本一起安装的组件。
组件 | 版本 | 描述 |
---|---|---|
zookeeper_server | 3.7.3 | 用于维护配置信息、命名、提供分布式同步的集中式服务。 |
zookeeper_client | 3.7.3 | ZooKeeper命令行客户端。 |
hive_metastore | 3.1.3 | Hive元数据存储服务。 |
hive_server | 3.1.3 | 用于将 Hive 查询作为 Web 请求接受的服务。 |
hive_client | 3.1.3 | Hive命令行客户端。 |
hdfs_namenode | 3.3.6 | 用于跟踪HDFS文件名和数据块的服务。 |
hdfs_datanode | 3.3.6 | 存储HDFS数据块的节点服务。 |
hdfs_secondary_namenode | 3.3.6 | 对NameNode数据进行周期性合并的服务。 |
hdfs_client | 3.3.6 | HDFS客户端命令行。 |
hdfs_journalnode | 3.3.6 | 用于管理 HA 模式下HDFS日志的服务。 |
hdfs_zkfc | 3.3.6 | 用户维护HA模式下HDFS NameNode从动态的服务。 |
hue_server | 4.11.0 | 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。 |
knox_gateway | 1.5.0 | 用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。 |
openldap | 2.5.13 | 后台认证以及用户数据权限管控服务。 |
ranger_admin | 2.3.0 | Ranger安全管理的中心接口服务。 |
ranger_usersync | 2.3.0 | 拉取用户和组的Ranger服务。 |
spark_jobhistoryserver | 3.5.1 | 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。 |
spark_client | 3.5.1 | Spark命令行客户端。 |
livy_server | 0.8.0 | 提供REST接口来与Spark交互的服务。 |
sqoop | 1.4.7 | 提供数据库与HDFS导入导出功能。 |
iceberg | 1.4.3 | Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。 |
hudi | 0.14.1 | 增量处理框架,以支持低延迟和高效率的数据管道。 |
yarn_resourcemanager | 3.3.6 | 分配和管理集群资源与分布式应用程序的 YARN 服务。 |
yarn_nodemanager | 3.3.6 | 管理单个节点上的容器的 YARN 服务。 |
yarn_client | 3.3.6 | YARN命令行客户端。 |
mapreduce2_historyserver | 3.3.6 | 保存作业执行信息的MapReduce服务。 |
mapreduce2_client | 3.3.6 | MapReduce命令行客户端。 |
tez_client | 0.10.2 | Tez命令行客户端。 |
flink_client | 1.16.1 | Flink命令行客户端。 |
airflow_webserver | 2.7.3 | Airflow提供的web服务。 |
airflow_scheduler | 2.7.3 | Airflow的调度器。 |
presto_cli | 0.280 | Presto命令行客户端。 |
presto_coordinator | 0.280 | Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。 |
presto_worker | 0.280 | Presto中负责所有Query相关数据的计算工作。 |
trino_cli | 432 | Trino命令行客户端。 |
trino_coordinator | 432 | Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。 |
trino_worker | 432 | Trino中负责所有Query相关数据的计算工作。 |
flume_agent | 1.9.0 | Flume中的数据采集工具。 |
flume_client | 1.9.0 | Flume命令行客户端。 |
kafka_broker | 3.2.4 | Kafka中的消息处理节点。 |
hbase_master | 2.5.2 | 适用于负责协调区域和执行管理命令的 HBase 集群的服务。 |
hbase_regionserver | 2.5.2 | 用于服务于一个或多个 HBase 区域的服务。 |
hbase_client | 2.5.2 | HBase 命令行客户端。 |
opensearch | 1.2.3 | OpenSearch服务。 |
opensearch_dashboard | 1.2.3 | OpenSearch的可视化仪表盘。 |
tensorflow | 2.7.0 | 适用于高性能数值计算的 TensorFlow 开源软件库。 |
tensorflow_on_yarn | 1.0.0 | TensorFlow YARN应用程序和库。 |
doris_fe | 1.2.5和2.0.14 | Doris的FE服务。 |
doris_be | 1.2.5和2.0.14 | Doris的BE服务。 |
bookKeeper | 4.14.2 | 负责Pulsar消息数据的存储。 |
pulsar_broker | 3.0.1 | 提供读写服务以及 Pulsar 的计算逻辑。 |
pulsar_client | 3.0.1 | Pulsar 命令行客户端。 |
Pulsar Manager | 0.2.0 | Pulsar 可视化工具。 |
clickhouse | 22.3.10.22 | ClickHouse应用程序。 |
catalogd | 3.4.1 | Impala元数据服务的应用程序。 |
statestored | 3.4.1 | Impala集群节点管理应用程序。 |
impalad | 3.4.1 | Impala计算节点应用程序。 |
kudu_tserver | 1.14.0 | Kudu存储节点应用程序。 |
kudu_master | 1.14.0 | Kudu元数据和集群节点管理应用程序。 |
starrocks_fe | 2.5.13和3.2.11 | StarRocks的FE服务。 |
starrocks_be | 2.5.13和3.2.11 | StarRocks的BE服务。 |
Ossa | 1.0.0 | 为字节EMR团队自研组件,用于支持作业管理等功能。 |
Proton | 2.1.3 | 火山引擎 E-MapReduce(EMR)团队推出的,针对存算分离场景提供的加速引擎,其深度优化的 TOS 访问能力和 JobCommitter 功能,可极大地提升作业的执行效率。 |
Kyuubi | 1.8.0 | 是一个分布式和多租户网关,用于在数据仓库和湖仓上提供无服务器 SQL。 |