版本 | 环境 |
---|---|
OS | veLinux(Debian 10兼容版) |
Python2 | 2.7.16 |
Python3 | 3.7.3 |
Java | ByteOpenJDK 1.8.0_302 |
remote_base_log_folder | Hadoop集群 | Flink集群 | Kafka集群 | Presto集群 | Trino集群 | HBase集群 | OpenSearch集群 | TensorFlow集群 | Doris集群 | Pulsar集群 |
---|---|---|---|---|---|---|---|---|---|---|
Flume | 1.9.0 | 1.9.0 | 1.9.0 | - | - | - | - | - | - | - |
OpenLDAP | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | 2.4.58 | - | - |
Ranger | 2.1.0 | 2.1.0 | 2.1.0 | 2.1.0 | 2.1.0 | 2.1.0 | - | 2.1.0 | - | - |
ZooKeeper | 3.7.0 | 3.7.0 | 3.7.0 | - | - | 3.7.0 | - | 3.7.0 | - | 3.7.0 |
Flink | 1.11 | 1.11 | - | - | - | - | - | - | - | - |
HDFS | 3.3.1 | 3.3.1 | - | 3.3.1 | 3.3.1 | 3.3.1 | - | 3.3.1 | - | - |
MapReduce2 | 3.3.1 | 3.3.1 | - | - | - | - | - | 3.3.1 | - | - |
YARN | 3.3.1 | 3.3.1 | - | - | - | - | - | 3.3.1 | - | - |
Airflow | 2.2.0 | - | - | 2.2.0 | 2.2.0 | - | - | - | - | - |
Hive | 3.1.2 | - | - | 3.1.2 | 3.1.2 | - | - | - | - | - |
Hue | 4.9.0 | - | - | 4.9.0 | 4.9.0 | - | - | - | - | - |
Kafka | - | - | 2.3 | - | - | - | - | - | - | - |
Knox | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | 1.5.0 | - |
Presto | 0.267 | - | - | 0.267 | - | - | - | - | - | - |
Presto on YARN | 0.267 | - | - | - | - | - | - | - | - | - |
Trino | 365 | - | - | - | 365 | - | - | - | - | - |
Trino on YARN | 365 | - | - | - | - | - | - | - | - | - |
Spark | 3.2.1 | - | - | - | - | - | - | 3.2.1 | - | - |
Sqoop | 1.4.7 | - | - | - | - | - | - | - | - | - |
Kerby | 2.0.1 | - | - | - | - | - | - | - | - | - |
Tez | 0.10.1 | - | - | - | - | - | - | - | - | - |
Iceberg | 0.12.0 | - | - | 0.12.0 | 0.12.0 | - | - | - | - | - |
Hudi | 0.10.0 | - | - | - | - | - | - | - | - | - |
HBase | - | - | - | - | - | 2.3.7 | - | - | - | - |
OpenSearch | - | - | - | - | - | - | 1.2.3 | - | - | - |
TensorFlow | - | - | - | - | - | - | - | 2.7.0 | - | - |
TensorFlow on YARN | - | - | - | - | - | - | - | 1.0.0 | - | - |
Doris | - | - | - | - | - | - | - | - | 1.0.0 | - |
Pulsar | - | - | - | - | - | - | - | - | - | 2.9.1 |
BookKeeper | - | - | - | - | - | - | - | - | - | 4.14.2 |
以下发布说明包括有关 EMR V1.3.1 的信息, 更改与 1.3.0 有关。EMR V1.3.0为火山引擎EMR V1.3.x的第二个版本。
发布日期: 2022 年 08 月 04 日
【通用】Hadoop集群 弹性伸缩 白名单发布:
支持多种伸缩场景
弹性扩展,用户根据自己的业务需求自动调整其弹性计算资源,在满足业务需求高峰增长时无缝地增加ECS实例;
弹性收缩,用户根据自己的业务需求自动调整其弹性计算资源,在业务需求下降时自动减少ECS实例以节约成本;
弹性自愈,用户根据自己的业务需求自动替换不健康的ECS实例使业务始终保持正常的负载,为业务保驾护航。
支持多种伸缩策略
固定数量模式,通过“最小实例数”属性,可以让您始终保持健康运行的ECS实例数量,自动替换不健康实例,以保证日常场景实时可用;
定时伸缩模式,配置定时任务,一次性在固定时间增加或减少ECS实例,适合于突发性的且业务需求比较明确的场景;
周期伸缩模式,配置周期性任务,定时地增加或减少ECS实例,适合于比较稳定的业务预期;
【集群】集群服务上下线:支持将某一节点上的一个组件下线(当组件实例数达到最小数量限制时就不能再继续下线)。
【组件】Trino Bloom索引增强,包括
支持在CREATE INDEX时,为Bloom索引设置roperties参数;
只支持对Iceberg表开启索引功能,且要求Iceberg表的format.version=2;
支持对INT等数字类型的字段构建Bloom索引。
【组件】Hue增加支持PySpark
【组件】支持Airflow RemoteLog写入TOS,配置如下:
设置 remote_logging=True;
通过 remote_base_log_folder 指定对应TOS路径;
无需指定 remote_log_conn_id。
【通用】修复云监控无法采集EMR的ECS实例的部分数据指标的问题。
【通用】集群服务日志外置,不再占用集群内部存储和计算资源,提高集群性能。
【组件】HDFS默认副本策略优化:根据用户选择的机型磁盘动态设置HDFS默认副本数(磁盘为云盘时默认副本是2,为本地盘时默认副本数是3),根据硬件配置优化参数配置。
【组件】Doris稳定性增加:合入社区1.0.1分支的20多个bug,提升Doris组件的稳定性。
【组件】Spark版本升级3.2.1。
【通用】监控指标链路升级改造:
自 1.3.1 版本起的EMR集群,默认对接云监控,用户可以在云监控产品页面的 数据****中台 -- E-MapReduce 空间中查看更多的监控图标,进行更细致的告警配置。
目前完成了 HDFS,HBase,Hive,YARN,Kafka,Presto,Trino 服务组件的接入。
Promethus 改单点为多实例部署,每节点实例收集本节点上的服务指标并输出,减轻 Master 单点收集的压力,规避单点导致整体指标不可用的问题。
下面列出了 EMR 和此版本一起安装的组件。
组件 | 版本 | 描述 |
---|---|---|
zookeeper_server | 3.7.0 | 用于维护配置信息、命名、提供分布式同步的集中式服务。 |
zookeeper_client | 3.7.0 | ZooKeeper命令行客户端。 |
hive_metastore | 3.1.2 | Hive元数据存储服务。 |
hive_server | 3.1.2 | 用于将 Hive 查询作为 Web 请求接受的服务。 |
hive_client | 3.1.2 | Hive命令行客户端。 |
hdfs_namenode | 3.3.1 | 用于跟踪HDFS文件名和数据块的服务。 |
hdfs_datanode | 3.3.1 | 存储HDFS数据块的节点服务。 |
hdfs_secondary_namenode | 3.3.1 | 对NameNode数据进行周期性合并的服务。 |
hdfs_client | 3.3.1 | HDFS客户端命令行。 |
hdfs_journalnode | 3.3.1 | 用于管理 HA 模式下HDFS日志的服务。 |
hdfs_zkfc | 3.3.1 | 用户维护HA模式下HDFS NameNode从动态的服务。 |
hue_server | 4.9.0 | 用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。 |
knox_gateway | 1.5.0 | 用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。 |
openldap | 2.4.58 | 后台认证以及用户数据权限管控服务。 |
ranger_admin | 2.1.0 | Ranger安全管理的中心接口服务。 |
ranger_usersync | 2.1.0 | 拉取用户和组的Ranger服务。 |
spark_jobhistoryserver | 3.2.1 | 用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。 |
ksana | 1.0 | 为字节EMR团队自研组件,定位于SparkSQL数据仓库构建引擎,取代了Spark Thrift Server,兼容Hive的使用方式。 |
spark_client | 3.2.1 | Spark命令行客户端。 |
livy_server | 3.2.1 | 提供REST接口来与Spark交互的服务。 |
sqoop | 1.4.7 | 提供数据库与HDFS导入导出功能。 |
iceberg | 0.12.0 | Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。 |
hudi | 0.10.0 | 增量处理框架,以支持低延迟和高效率的数据管道。 |
yarn_resourcemanager | 3.3.1 | 分配和管理集群资源与分布式应用程序的 YARN 服务。 |
yarn_nodemanager | 3.3.1 | 管理单个节点上的容器的 YARN 服务。 |
yarn_client | 3.3.1 | YARN命令行客户端。 |
mapreduce2_historyserver | 3.3.1 | 保存作业执行信息的MapReduce服务。 |
mapreduce2_client | 3.3.1 | MapReduce命令行客户端。 |
tez_client | 0.10.1 | Tez命令行客户端。 |
flink_client | 1.11.3 | Flink命令行客户端。 |
airflow_webserver | 2.2.0 | Airflow提供的web服务。 |
airflow_scheduler | 2.2.0 | Airflow的调度器。 |
presto_cli | 0.267 | Presto命令行客户端。 |
presto_coordinator | 0.267 | Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。 |
presto_worker | 0.267 | Presto中负责所有Query相关数据的计算工作。 |
trino_cli | 365 | Trino命令行客户端。 |
trino_coordinator | 365 | Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。 |
trino_worker | 365 | Trino中负责所有Query相关数据的计算工作。 |
kerby_server | 2.0.1 | Kerberos认证服务。 |
flume_agent | 1.9.0 | Flume中的数据采集工具。 |
flume_client | 1.9.0 | Flume命令行客户端。 |
kafka_broker | 2.3 | Kafka中的消息处理节点。 |
hbase_master | 2.3.7 | 适用于负责协调区域和执行管理命令的 HBase 集群的服务。 |
hbase_regionserver | 2.3.7 | 用于服务于一个或多个 HBase 区域的服务。 |
hbase_client | 2.3.7 | HBase 命令行客户端。 |
opensearch | 1.2.3 | OpenSearch服务。 |
opensearch_dashboard | 1.2.3 | OpenSearch的可视化仪表盘。 |
tensorflow | 2.7.0 | 适用于高性能数值计算的 TensorFlow 开源软件库。 |
tensorflow_on_yarn | 1.0.0 | TensorFlow YARN应用程序和库。 |
doris_fe | 1.0.0 | Doris的FE服务。 |
doris_be | 1.0.0 | Doris的BE服务。 |
bookie | 4.14.2 | 负责Pulsar消息数据的存储。 |
pulsar_broker | 2.9.1 | 提供读写服务以及 Pulsar 的计算逻辑。 |
pulsar_client | 2.9.1 | Pulsar 命令行客户端。 |