版本 | 环境 |
---|---|
OS | veLinux(Debian 10兼容版) |
Python2 | 2.7.16 |
Python3 | 3.7.3 |
Java | ByteOpenJDK 1.8.0_302 |
Hadoop集群 | Flink集群 | Kafka集群 | Presto集群 | Trino集群 | HBase集群 | OpenSearch集群 | TensorFlow集群 | Doris集群 | Pulsar集群 | ClickHouse集群 | |
---|---|---|---|---|---|---|---|---|---|---|---|
Flume | 1.9.0 | 1.9.0 | 1.9.0 | - | - | - | - | - | - | - | - |
OpenLDAP | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | - | - | - |
Ranger | 2.1.0 | 2.1.0 | 2.1.0 | 2.1.0 | 2.1.0 | 2.1.0 | - | 2.1.0 | - | - | - |
ZooKeeper | 3.7.0 | 3.7.0 | 3.7.0 | - | - | 3.7.0 | - | 3.7.0 | - | 3.7.0 | 3.7.0 |
Flink | 1.15.1 | 1.15.1 | - | - | - | - | - | - | - | - | - |
HDFS | 3.3.1 | 3.3.1 | - | 3.3.1 | 3.3.1 | 3.3.1 | - | 3.3.1 | - | - | - |
MapReduce2 | 3.3.1 | 3.3.1 | - | - | - | - | - | 3.3.1 | - | - | - |
YARN | 3.3.1 | 3.3.1 | - | - | - | - | - | 3.3.1 | - | - | - |
Airflow | 2.2.0 | - | - | 2.2.0 | 2.2.0 | - | - | - | - | - | - |
Hive | 3.1.2 | - | - | 3.1.2 | 3.1.2 | - | - | - | - | - | - |
Hue | 4.9.0 | - | - | 4.9.0 | 4.9.0 | - | - | - | - | - | - |
Kafka | - | - | 2.3 | - | - | - | - | - | - | - | - |
Knox | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | - | - | - |
Presto | 0.267 | - | - | 0.267 | - | - | - | - | - | - | - |
Presto on YARN | 0.267 | - | - | - | - | - | - | - | - | - | - |
Trino | 392 | - | - | - | 392 | - | - | - | - | - | - |
Trino on YARN | 392 | - | - | - | - | - | - | - | - | - | - |
Spark | 3.2.1 | - | - | - | - | - | - | 3.2.1 | - | - | - |
Sqoop | 1.4.7 | - | - | - | - | - | - | - | - | - | - |
Tez | 0.10.1 | - | - | - | - | - | - | - | - | - | - |
Iceberg | 0.14.0 | - | - | 0.14.0 | 0.14.0 | - | - | - | - | - | - |
Hudi | 0.11.1 | - | - | - | - | - | - | - | - | - | - |
HBase | - | - | - | - | - | 2.3.7 | - | - | - | - | - |
OpenSearch | - | - | - | - | - | - | 1.2.3 | - | - | - | - |
TensorFlow | - | - | - | - | - | - | - | 2.7.0 | - | - | - |
TensorFlow on YARN | - | - | - | - | - | - | - | 1.0.0 | - | - | - |
Doris | - | - | - | - | - | - | - | - | 1.1.1 | - | - |
Pulsar | - | - | - | - | - | - | - | - | - | 2.9.1 | - |
BookKeeper | - | - | - | - | - | - | - | - | - | 4.14.2 | - |
Delta Lake | 2.0.0 | - | - | - | - | - | - | - | - | - | - |
Impala | 3.4.1 | - | - | - | - | - | - | - | - | - | - |
Kudu | 1.14.0 | - | - | - | - | - | - | - | - | - | - |
ClickHouse | - | - | - | - | - | - | - | - | - | - | 22.3.10.22 |
以下发布说明包括有关 EMR V3.0.0 的信息, 更改与 1.3.1 有关。EMR V3.0.0 为火山引擎EMR V3.x 的第一个版本,目前 EMR V3.0.0 已处于下线状态,我们推荐您创建 EMR V3.0.1的集群版本,详见 EMR-V3.0.1版本说明。
发布日期: 2022 年 10 月 11 日
【通用】集群内hostname解析接入PrivateZone,不再依赖/etc/hosts:
集群内通信可以使用长短hostname:emr-master-1和emr-2tfyq6eeoq5g1j17w0zo-master-1
集群所在VPC内与集群内ECS通信可以使用完整的域名(见节点管理-节点组列表的DNS列)如:emr-2tfyq6eeoq5g1j17w0zo-master-1.cn-beijing.emr-13fy9kueufzsw3n6nu56wmf71.internal
【集群】新增 ClickHouse 集群类型(以用户白名单的形式开放),扩充了 E-MapReduce 对 OLAP 查询分析场景的支持。当前版本支持多分片、多副本的 ClickHouse 集群的创建和核心的管控功能。使用的ClickHouse版本是22.3.10.22。
【组件】首次引入独立于集群之外常驻运行的 Public History Server 概念,并在当前版本支持 Presto 和 Trino 组件。对于启用了 Public History Server 的集群,您可以在集群运行时甚至是释放后,仍然可以通过对应组件的 Public History Server 页面查看组件执行完成的作业运行日志数据。
【组件】针对存算分离场景(数据存储在TOS),我们在当前版本支持在EMR集群外采用全托管模式独立部署Hive Metastore(HMS)服务(Preview版本),多个EMR集群的计算引擎可以通过连接同一个HMS服务实现元数据共享,HMS服务不会随着EMR集群的释放而停止服务。
【组件】Hadoop集群新增Delta Lake 2.0.0
【通用】日志数据由外置的公共OpenSearch存储,集群中不再启动ElasticSearch:
支持查询已释放的历史集群的日志;
不再启动集群内部组件ElasticSearch,避免额外占用集群资源。
【通用】集群易用性增强
在ECS实例中启用了部分常用的shell命令,包括netstat、arthas、tailf、sar、ll等;
增强Hive、Presto和Trino组件命令行,使用命令行连接时无需填写相关环境配置,如host、port等。
【组件】Spark支持对Iceberg类型的表创建物化视图
对于执行的SQL,Spark会自动匹配合适的物化视图进行替换,重写SQL查询,提升SQL的查询性能;
支持手动对物化视图进行刷新更新操作;
支持删除物化视图。
【组件】Airflow优化增强:
透出所有配置在EMR控制台上可配置,对于不同的配置section,采用 airflow-env-{section} 的命名进行分组;
新增更多extra能力,可对接更多生态能力。
【组件】Doris升级到 1.1.1:
向量化执行引擎支持 ODBC Sink;
增加简易版 MemTracker;
支持在 Page Cache 中缓存解压后的数据;
修复某些查询不能回退到非向量化引擎并导致 BE Core的问题;
修复 Compaction 不能正常工作导致的 -235 错误。
【组件】Presto、Trino 自定义connector:可以在控制台 服务列表- Presto/Trino - 服务参数中的connector_custom.properties配置文件中添加。
【组件】Trino组件升级至392版本:
【组件】Iceberg组件升级 0.14.0
【组件】Flink升级到1.15
【组件】Hudi更新
升级到社区 0.11.1 版本;
支持核心指标 Payload;
支持 Flink 1.15。
下面列出了 EMR 和此版本一起安装的组件。
组件 | 版本 | 描述 |
---|---|---|
zookeeper_server | 3.7.0 | 用于维护配置信息、命名、提供分布式同步的集中式服务。 |
zookeeper_client | 3.7.0 | ZooKeeper命令行客户端。 |
hive_metastore | 3.1.2 | Hive元数据存储服务。 |
hive_server | 3.1.2 | 用于将 Hive 查询作为 Web 请求接受的服务。 |
hive_client | 3.1.2 | Hive命令行客户端。 |
hdfs_namenode | 3.3.1 | 用于跟踪HDFS文件名和数据块的服务。 |
hdfs_datanode | 3.3.1 | 存储HDFS数据块的节点服务。 |
hdfs_secondary_namenode | 3.3.1 | 对NameNode数据进行周期性合并的服务。 |
hdfs_client | 3.3.1 | HDFS客户端命令行。 |
hdfs_journalnode | 3.3.1 | 用于管理 HA 模式下HDFS日志的服务。 |
hdfs_zkfc | 3.3.1 | 用户维护HA模式下HDFS NameNode从动态的服务。 |
hue_server | 4.9.0 | 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。 |
knox_gateway | 1.5.0 | 用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。 |
openldap | 2.4.58 | 后台认证以及用户数据权限管控服务。 |
ranger_admin | 2.1.0 | Ranger安全管理的中心接口服务。 |
ranger_usersync | 2.1.0 | 拉取用户和组的Ranger服务。 |
spark_jobhistoryserver | 3.2.1 | 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。 |
ksana | 1.0 | 为字节EMR团队自研组件,定位于SparkSQL数据仓库构建引擎,取代了Spark Thrift Server,兼容Hive的使用方式。 |
spark_client | 3.2.1 | Spark命令行客户端。 |
livy_server | 3.2.1 | 提供REST接口来与Spark交互的服务。 |
sqoop | 1.4.7 | 提供数据库与HDFS导入导出功能。 |
iceberg | 0.14.0 | Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。 |
hudi | 0.11.1 | 增量处理框架,以支持低延迟和高效率的数据管道。 |
yarn_resourcemanager | 3.3.1 | 分配和管理集群资源与分布式应用程序的 YARN 服务。 |
yarn_nodemanager | 3.3.1 | 管理单个节点上的容器的 YARN 服务。 |
yarn_client | 3.3.1 | YARN命令行客户端。 |
mapreduce2_historyserver | 3.3.1 | 保存作业执行信息的MapReduce服务。 |
mapreduce2_client | 3.3.1 | MapReduce命令行客户端。 |
tez_client | 0.10.1 | Tez命令行客户端。 |
flink_client | 1.15.1 | Flink命令行客户端。 |
airflow_webserver | 2.2.0 | Airflow提供的web服务。 |
airflow_scheduler | 2.2.0 | Airflow的调度器。 |
presto_cli | 0.267 | Presto命令行客户端。 |
presto_coordinator | 0.267 | Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。 |
presto_worker | 0.267 | Presto中负责所有Query相关数据的计算工作。 |
trino_cli | 392 | Trino命令行客户端。 |
trino_coordinator | 392 | Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。 |
trino_worker | 392 | Trino中负责所有Query相关数据的计算工作。 |
kerby_server | 2.0.1 | Kerberos认证服务。 |
flume_agent | 1.9.0 | Flume中的数据采集工具。 |
flume_client | 1.9.0 | Flume命令行客户端。 |
kafka_broker | 2.3 | Kafka中的消息处理节点。 |
hbase_master | 2.3.7 | 适用于负责协调区域和执行管理命令的 HBase 集群的服务。 |
hbase_regionserver | 2.3.7 | 用于服务于一个或多个 HBase 区域的服务。 |
hbase_client | 2.3.7 | HBase 命令行客户端。 |
opensearch | 1.2.3 | OpenSearch服务。 |
opensearch_dashboard | 1.2.3 | OpenSearch的可视化仪表盘。 |
tensorflow | 2.7.0 | 适用于高性能数值计算的 TensorFlow 开源软件库。 |
tensorflow_on_yarn | 1.0.0 | TensorFlow YARN应用程序和库。 |
doris_fe | 1.1.1 | Doris的FE服务。 |
doris_be | 1.1.1 | Doris的BE服务。 |
bookie | 4.14.2 | 负责Pulsar消息数据的存储。 |
pulsar_broker | 2.9.1 | 提供读写服务以及 Pulsar 的计算逻辑。 |
pulsar_client | 2.9.1 | Pulsar 命令行客户端。 |
clickhouse | 22.3.10.22 | ClickHouse应用程序。 |
catalogd | 3.4.1 | Impala元数据服务的应用程序。 |
statestored | 3.4.1 | Impala集群节点管理应用程序。 |
impalad | 3.4.1 | Impala计算节点应用程序。 |
kudu_tserver | 1.14.0 | Kudu存储节点应用程序。 |
kudu_master | 1.14.0 | Kudu元数据和集群节点管理应用程序。 |