You need to enable JavaScript to run this app.
导航
EMR-3.12.0发布说明
最近更新时间:2024.11.08 02:20:57首次发布时间:2024.11.08 02:20:57

系统环境

版本

环境

OS

veLinux(Debian 10兼容版)

Python2

2.7.16

Python3

3.10.13

Java

1.8.0_351

应用程序版本

Hadoop集群

Flink集群

Kafka集群

Pulsar集群

Presto集群

Trino集群

HBase集群

Doris集群

StarRocks集群

HDFS

3.3.6

3.3.6

3.3.6

3.3.6

3.3.6

YARN

3.3.6

3.3.6

3.3.6

MapReduce2

3.3.6

3.3.6

3.3.6

Hive

3.1.3

3.1.3

3.1.3

Spark

3.5.1

Tez

0.10.2

Knox

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

1.5.0

Openldap

2.5.13

2.5.13

2.5.13

2.5.13

2.5.13

2.5.13

Zookeeper

3.7.3

3.7.3

3.7.3

3.7.3

3.7.3

3.7.3

3.7.3

Ossa

1.0.0

1.0.0

1.0.0

1.0.0

Kafka

3.2.4

Pulsar

3.0.1

Doris

1.2.5和2.0.14

StarRocks

2.5.13和3.2.11

BookKeeper

4.16.2

HBase

2.5.2

2.5.2

Celeborn

0.3.1

Flink

1.16.1

1.16.1

Presto

0.280

0.280

Trino

432

432

DolphinScheduler

3.1.9

Iceberg

2.0.01.6.1

Delta Lake

3.1.0

Hudi

0.14.1

Airflow

2.7.3

2.7.3

2.7.3

Hue

4.11.0

4.11.0

4.11.0

Kyuubi

1.8.0

Sqoop

1.4.7

Impala

3.4.1

Kudu

1.14.0

Phoenix

5.1.3

5.1.3

Ranger

2.3.0

2.3.0

2.3.0

2.3.0

2.3.0

2.3.0

Flume

1.9.0

1.9.0

1.9.0

GTS

1.0.0

Proton

2.1.3

2.1.3

2.1.3

2.1.3

Paimon

0.6.1

0.6.1

EMR-3.12.0发布说明

新增功能

  • 【组件】Spark Native 支持(Spark代码或Spark SQL)通过声明一个头命令的方式来决定提交到Spark Native或传统Spark。
  • 【组件】StarRocks 支持负载数据类型直读直写。

服务版本升级

Hadoop

组件由3.3.4版本升级到3.3.6。更多开源特性请参考Apache Hadoop 3.3.6 发行说明

Zookeeper

组件由 3.7.0版本升级到3.7.3 。修复了“缺少ACL检查”带来的安全问题。
更多开源特性请参考发行说明 - ZooKeeper - 版本 3.7.3

Proton

组件由 1.9.0版本升级到2.1.3。新增特性请参考Proton 发行版本

StarRocks

组件由3.2.7版本升级到3.2.11StarRocks Bypass Load新增支持对于复杂数据类型(Array/Map/Struct)的读写,支持写入 List 分区表。
更多开源特性请参考StarRocks version 3.2.11版本说明

Doris

组件由 2.0.10版本升级到2.0.14。版本优化如下:

  • 优化 MOW 表带有 Sequence 列的主键点查性能。#38287
  • 优化倒排索引在查询条件很多时的性能。#35346
  • 创建带分词的倒排索引时,自动开启 support_phrase 选项加速 match_phrase 系列短语查询。#37949
  • 支持简化的 SQL Hint,例如 SELECT /*+ query_timeout(3000) */ * FROM t;。#37720
  • 读对象存储遇到 429 错误时自动重试提升稳定性。#35396
  • LEFT SEMI / ANTI JOIN 在匹配到符合的数据行时,终止后续的匹配执行提升性能。#34703
  • 避免非法数据返回 MySQL 结果时出发 coredump。#28069
  • 输出类型名字时统一使用小写,保持跟 MySQL 兼容对 BI 工具更加友好。#38521

更多开源特性请参考Apache Doris version 2.0.14

引擎能力优化

  • 服务默认参数调整优化
    • MapReduce参数优化
      • mapreduce.input.fileinputformat.input.dir.recursive 设置为 true
    • Hive参数优化
      • hive.allow.udf.load.on.demand 设置为 true
    • Yarn参数优化
      • yarn-site新增yarn.cluster.max-application-priority,默认值100

组件版本

下面列出了 EMR 和此版本一起安装的组件。

组件

版本

描述

zookeeper_server

3.7.3

用于维护配置信息、命名、提供分布式同步的集中式服务。

zookeeper_client

3.7.3

ZooKeeper命令行客户端。

hive_metastore

3.1.3

Hive元数据存储服务。

hive_server

3.1.3

用于将 Hive 查询作为 Web 请求接受的服务。

hive_client

3.1.3

Hive命令行客户端。

hdfs_namenode

3.3.6

用于跟踪HDFS文件名和数据块的服务。

hdfs_datanode

3.3.6

存储HDFS数据块的节点服务。

hdfs_secondary_namenode

3.3.6

对NameNode数据进行周期性合并的服务。

hdfs_client

3.3.6

HDFS客户端命令行。

hdfs_journalnode

3.3.6

用于管理 HA 模式下HDFS日志的服务。

hdfs_zkfc

3.3.6

用户维护HA模式下HDFS NameNode从动态的服务。

hue_server

4.11.0

用于使用 Hadoop 生态系统应用程序分析数据的 Web 应用程序。

knox_gateway

1.5.0

用于与Hadoop生态的RESTAPI和UI交互的应用程序网关。

openldap

2.5.13

后台认证以及用户数据权限管控服务。

ranger_admin

2.3.0

Ranger安全管理的中心接口服务。

ranger_usersync

2.3.0

拉取用户和组的Ranger服务。

spark_jobhistoryserver

3.5.1

用于查看完整的 Spark 应用程序的生命周期的已记录事件的 Web UI。

spark_client

3.5.1

Spark命令行客户端。

livy_server

0.8.0

提供REST接口来与Spark交互的服务。

sqoop

1.4.7

提供数据库与HDFS导入导出功能。

iceberg

1.4.3

Apache Iceberg 是一种适用于超大型分析数据集的开放表格式。

hudi

0.14.1

增量处理框架,以支持低延迟和高效率的数据管道。

yarn_resourcemanager

3.3.6

分配和管理集群资源与分布式应用程序的 YARN 服务。

yarn_nodemanager

3.3.6

管理单个节点上的容器的 YARN 服务。

yarn_client

3.3.6

YARN命令行客户端。

mapreduce2_historyserver

3.3.6

保存作业执行信息的MapReduce服务。

mapreduce2_client

3.3.6

MapReduce命令行客户端。

tez_client

0.10.2

Tez命令行客户端。

flink_client

1.16.1

Flink命令行客户端。

airflow_webserver

2.7.3

Airflow提供的web服务。

airflow_scheduler

2.7.3

Airflow的调度器。

presto_cli

0.280

Presto命令行客户端。

presto_coordinator

0.280

Presto中负责query解析,任务调度,结果汇总的,集群监控的节点。

presto_worker

0.280

Presto中负责所有Query相关数据的计算工作。

trino_cli

432

Trino命令行客户端。

trino_coordinator

432

Trino中负责query解析,任务调度,结果汇总的,集群监控的节点。

trino_worker

432

Trino中负责所有Query相关数据的计算工作。

flume_agent

1.9.0

Flume中的数据采集工具。

flume_client

1.9.0

Flume命令行客户端。

kafka_broker

3.2.4

Kafka中的消息处理节点。

hbase_master

2.5.2

适用于负责协调区域和执行管理命令的 HBase 集群的服务。

hbase_regionserver

2.5.2

用于服务于一个或多个 HBase 区域的服务。

hbase_client

2.5.2

HBase 命令行客户端。

opensearch

1.2.3

OpenSearch服务。

opensearch_dashboard

1.2.3

OpenSearch的可视化仪表盘。

tensorflow

2.7.0

适用于高性能数值计算的 TensorFlow 开源软件库。

tensorflow_on_yarn

1.0.0

TensorFlow YARN应用程序和库。

doris_fe

1.2.5和2.0.14

Doris的FE服务。

doris_be

1.2.5和2.0.14

Doris的BE服务。

bookKeeper

4.14.2

负责Pulsar消息数据的存储。

pulsar_broker

3.0.1

提供读写服务以及 Pulsar 的计算逻辑。

pulsar_client

3.0.1

Pulsar 命令行客户端。

Pulsar Manager

0.2.0

Pulsar 可视化工具。

clickhouse

22.3.10.22

ClickHouse应用程序。

catalogd

3.4.1

Impala元数据服务的应用程序。

statestored

3.4.1

Impala集群节点管理应用程序。

impalad

3.4.1

Impala计算节点应用程序。

kudu_tserver

1.14.0

Kudu存储节点应用程序。

kudu_master

1.14.0

Kudu元数据和集群节点管理应用程序。

starrocks_fe

2.5.13和3.2.11

StarRocks的FE服务。

starrocks_be

2.5.13和3.2.11

StarRocks的BE服务。

Ossa

1.0.0

为字节EMR团队自研组件,用于支持作业管理等功能。

Proton

2.1.3

火山引擎 E-MapReduce(EMR)团队推出的,针对存算分离场景提供的加速引擎,其深度优化的 TOS 访问能力和 JobCommitter 功能,可极大地提升作业的执行效率。

Kyuubi

1.8.0

是一个分布式和多租户网关,用于在数据仓库和湖仓上提供无服务器 SQL。