版本 | 环境 |
---|---|
OS | veLinux(Debian 10兼容版) |
Python2 | 2.7.16 |
Python3 | 3.7.3 |
Java | ByteOpenJDK 1.8.0_302 |
Hadoop 集群 | Flink 集群 | Kafka 集群 | Presto 集群 | Trino 集群 | HBase 集群 | OpenSearch 集群 | TensorFlow 集群 | Doris 集群 | Pulsar 集群 | ClickHouse 集群 | |
---|---|---|---|---|---|---|---|---|---|---|---|
Flume | 1.9.0 | 1.9.0 | 1.9.0 | - | - | - | - | - | - | - | - |
OpenLDAP | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | - | - | - |
Ranger | 2.1.0 | 2.1.0 | 2.1.0 | 2.1.0 | 2.1.0 | 2.1.0 | - | 2.1.0 | - | - | - |
ZooKeeper | 3.7.0 | 3.7.0 | 3.7.0 | - | - | 3.7.0 | - | 3.7.0 | - | 3.7.0 | 3.7.0 |
Flink | 1.15.1 | 1.15.0 | - | - | - | - | - | - | - | - | - |
HDFS | 3.3.1 | 3.3.1 | - | 3.3.1 | 3.3.1 | 3.3.1 | - | 3.3.1 | - | - | - |
MapReduce2 | 3.3.1 | 3.3.1 | - | - | - | - | - | 3.3.1 | - | - | - |
YARN | 3.3.1 | 3.3.1 | - | - | - | - | - | 3.3.1 | - | - | - |
Airflow | 2.4.2 | - | - | 2.4.2 | 2.4.2 | - | - | - | - | - | - |
Hive | 3.1.2 | - | - | 3.1.2 | 3.1.2 | - | - | - | - | - | - |
Hue | 4.9.0 | - | - | 4.9.0 | 4.9.0 | - | - | - | - | - | - |
Kafka | - | - | 2.3 | - | - | - | - | - | - | - | - |
Knox | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | - | - | - |
Presto | 0.267 | - | - | 0.267 | - | - | - | - | - | - | - |
Presto on YARN | 0.267 | - | - | - | - | - | - | - | - | - | - |
Trino | 392 | - | - | - | 392 | - | - | - | - | - | - |
Trino on YARN | 392 | - | - | - | - | - | - | - | - | - | - |
Spark | 3.2.1 | - | - | - | - | - | - | 3.2.1 | - | - | - |
Sqoop | 1.4.7 | - | - | - | - | - | - | - | - | - | - |
Tez | 0.10.1 | - | - | - | - | - | - | - | - | - | - |
Iceberg | 0.14.0 | - | - | 0.14.0 | 0.14.0 | - | - | - | - | - | - |
Hudi | 0.11.1 | - | - | - | - | - | - | - | - | - | - |
HBase | - | - | - | - | - | 2.3.7 | - | - | - | - | - |
OpenSearch | - | - | - | - | - | - | 1.2.3 | - | - | - | - |
TensorFlow | - | - | - | - | - | - | - | 2.7.0 | - | - | - |
TensorFlow on YARN | - | - | - | - | - | - | - | 1.0.0 | - | - | - |
Doris | - | - | - | - | - | - | - | - | 1.1.1 | - | - |
Pulsar | - | - | - | - | - | - | - | - | - | 2.9.1 | - |
BookKeeper | - | - | - | - | - | - | - | - | - | 4.14.2 | - |
Delta Lake | 2.0.0 | - | - | - | - | - | - | - | - | - | - |
Impala | 3.4.1 | - | - | - | - | - | - | - | - | - | - |
Kudu | 1.14.0 | - | - | - | - | - | - | - | - | - | - |
ClickHouse | - | - | - | - | - | - | - | - | - | - | 22.3.10.22 |
以下发布说明包括有关火山引擎 E-MapReduce(EMR) V3.0.1 的信息, 更改与 3.0.0 有关。EMR V3.0.1 为火山引擎 EMR V3.0.x 的第二个版本。
发布日期: 2022 年 12 月 15 日
【组件】Flume 写 Kudu,CFS,TOS 易用性优化,达到开箱即用,不需要用户拷贝额外的 jar 包和配置密钥等。
【组件】Kafka 网络拓扑优化,当开启 EIP 后,Kafka 组件的内部通信仍然使用内网,提升集群性能和降低成本。
【组件】ClickHouse 支持 TOS 存储。对二进制包进行优化,减少不必要的 Warn 提示。
【组件】AirFlow 升级至2.4.2,修复部分安全漏洞。
【组件】Hive 支持用户电脑从公网连接 HiveServer2 并执行相应作业的功能。
下面列出了 EMR 和此版本一起安装的组件。
组件 | 版本 | 描述 |
---|---|---|
zookeeper_server | 3.7.0 | 用于维护配置信息、命名、提供分布式同步的集中式服务。 |
zookeeper_client | 3.7.0 | ZooKeeper 命令行客户端。 |
hive_metastore | 3.1.2 | Hive 元数据存储服务。 |
hive_server | 3.1.2 | 用于将 Hive 查询作为 Web 请求接受的服务。 |
hive_client | 3.1.2 | Hive 命令行客户端。 |
hdfs_namenode | 3.3.1 | 用于跟踪 HDFS 文件名和数据块的服务。 |
hdfs_datanode | 3.3.1 | 存储 HDFS 数据块的节点服务。 |
hdfs_secondary_namenode | 3.3.1 | 对 NameNode 数据进行周期性合并的服务。 |
hdfs_client | 3.3.1 | HDFS 客户端命令行。 |
hdfs_journalnode | 3.3.1 | 用于管理 HA 模式下 HDFS 日志的服务。 |
hdfs_zkfc | 3.3.1 | 用户维护 HA 模式下 HDFS NameNode 从动态的服务。 |
hue_server | 4.9.0 | 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。 |
knox_gateway | 1.5.0 | 用于与 Hadoop 生态的 RESTAPI 和 UI 交互的应用程序网关。 |
openldap | 2.4.58 | 后台认证以及用户数据权限管控服务。 |
ranger_admin | 2.1.0 | Ranger 安全管理的中心接口服务。 |
ranger_usersync | 2.1.0 | 拉取用户和组的 Ranger 服务。 |
spark_jobhistoryserver | 3.2.1 | 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。 |
ksana | 1.0 | 为字节 EMR 团队自研组件,定位于 SparkSQL 数据仓库构建引擎,取代了 Spark Thrift Server,兼容 Hive 的使用方式。 |
spark_client | 3.2.1 | Spark 命令行客户端。 |
livy_server | 0.6.0 | 提供 REST 接口来与 Spark 交互的服务。 |
sqoop | 1.4.7 | 提供数据库与 HDFS 导入导出功能。 |
iceberg | 0.14.0 | Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。 |
hudi | 0.11.1 | 增量处理框架,以支持低延迟和高效率的数据管道。 |
yarn_resourcemanager | 3.3.1 | 分配和管理集群资源与分布式应用程序的 YARN 服务。 |
yarn_nodemanager | 3.3.1 | 管理单个节点上的容器的 YARN 服务。 |
yarn_client | 3.3.1 | YARN 命令行客户端。 |
mapreduce2_historyserver | 3.3.1 | 保存作业执行信息的 MapReduce 服务。 |
mapreduce2_client | 3.3.1 | MapReduce 命令行客户端。 |
tez_client | 0.10.1 | Tez 命令行客户端。 |
flink_client | 1.15.1 | Flink 命令行客户端。 |
airflow_webserver | 2.4.2 | Airflow 提供的 web 服务。 |
airflow_scheduler | 2.4.2 | Airflow 的调度器。 |
presto_cli | 0.267 | Presto 命令行客户端。 |
presto_coordinator | 0.267 | Presto 中负责 query 解析,任务调度,结果汇总的,集群监控的节点。 |
presto_worker | 0.267 | Presto 中负责所有 Query 相关数据的计算工作。 |
trino_cli | 392 | Trino 命令行客户端。 |
trino_coordinator | 392 | Trino 中负责 query 解析,任务调度,结果汇总的,集群监控的节点。 |
trino_worker | 392 | Trino 中负责所有 Query 相关数据的计算工作。 |
kerby_server | 2.0.1 | Kerberos 认证服务。 |
flume_agent | 1.9.0 | Flume 中的数据采集工具。 |
flume_client | 1.9.0 | Flume 命令行客户端。 |
kafka_broker | 2.3 | Kafka 中的消息处理节点。 |
hbase_master | 2.3.7 | 适用于负责协调区域和执行管理命令的 HBase 集群的服务。 |
hbase_regionserver | 2.3.7 | 用于服务于一个或多个 HBase 区域的服务。 |
hbase_client | 2.3.7 | HBase 命令行客户端。 |
opensearch | 1.2.3 | OpenSearch 服务。 |
opensearch_dashboard | 1.2.3 | OpenSearch 的可视化仪表盘。 |
tensorflow | 2.7.0 | 适用于高性能数值计算的 TensorFlow 开源软件库。 |
tensorflow_on_yarn | 1.0.0 | TensorFlow YARN 应用程序和库。 |
doris_fe | 1.1.1 | Doris的 FE 服务。 |
doris_be | 1.1.1 | Doris的 BE 服务。 |
bookie | 4.14.2 | 负责 Pulsar 消息数据的存储。 |
pulsar_broker | 2.9.1 | 提供读写服务以及 Pulsar 的计算逻辑。 |
pulsar_client | 2.9.1 | Pulsar 命令行客户端。 |
clickhouse | 22.3.10.22 | ClickHouse 应用程序。 |
catalogd | 3.4.1 | Impala 元数据服务的应用程序。 |
statestored | 3.4.1 | Impala 集群节点管理应用程序。 |
impalad | 3.4.1 | Impala 计算节点应用程序。 |
kudu_tserver | 1.14.0 | Kudu 存储节点应用程序。 |
kudu_master | 1.14.0 | Kudu 元数据和集群节点管理应用程序。 |