You need to enable JavaScript to run this app.
导航
EMR Serverless 功能发布记录
最近更新时间:2025.03.05 16:17:56首次发布时间:2024.11.29 15:22:25

2025年3月

EMR Serverless v 1.5.0版本于 2025年3月6日上线。

  • EMR Serverless 管控功能更新

产品

功能名称

功能描述

发布地域

EMR Serverless 队列

支持跨 VPC 访问域名

支持跨 VPC 任务,访问您 VPC 下的 privateZone 等私网域名(需要通过参数开启)

华南、柔佛、华北、华东、华北自驾

计算组设置半托管 HMS 支持域名和连接测试

计算组和队列支持设置 EMR 半托管 HMS 时支持设置域名,并且支持连接测试。已有计算组要替换为 HMS 域名时需重启计算组

全局计费、退费、更配金额优化

队列创建、更配页面增加计费变更金额明细

作业列表增加最近操作人字段

作业列表增加【操作人】字段,默认为作业创建人,当作业重跑、停止后会记录最近操作人

公共队列 GPU 资源参数统一

公共队列 GPU 参数设置屏蔽底层 VKE、VCI 资源的差异,使用姿势上用同一套参数

查询任务级别资源消耗

作业列表里新增峰值内存、Shuffle Read、Shuffle Write 展示。历史作业不会包含该信息,作业运行完成后预计会延迟5分钟左右生成该数据

Ray GPU 限制问题

公共队列 head 节点不分配 GPU 资源时,不调度到 GPU 节点池

Serverless 队列中,可以通过优先级设置,让更高优的作业拿到资源

在公共队列和独占队列默认计算组场景下,Spark 和 Ray 支持通过参数设定任务优先级

EMR 总览页上增加创建队列入口

EMR 总览页,选型指南内新增 EMR Serverless 创建队列入口

队列名称支持复制

队列详情页支持队列名称复制

作业列表展示 Dataleap 的原始作业信息

队列内的作业列表支持展示 Dataleap 的原始作业 ID /名称

  • EMR Serverless 内核功能更新

组件名称

功能名称

功能描述

发布地域

Spark

分层桶(HNS)场景下 Spark commiter 优化

提供原子性的的目录、文件操作,写入表性能更优

华南、柔佛、华北、华东、华北自驾

分区表创建完成后,insert/overwrite 数据时更新 partition 信息

proton-spark extension 在写表结束时将 numRow 统计信息更新到 LAS catalog

Presto

Presto 支持读 paimon 数据

Presto 支持直接读取 Paimon 表数据,提供分区裁剪、列裁剪等优化能力

华南、柔佛、华北、华东

Hive

创建抢占型计算组支持抢占 hive rm/nm pod

hive rm/nm pod 目前会占用 4cu 的资源,创建抢占型计算组支持抢占这些资源

Hive 任务执行过程中支持从 Yarn 页面跳转到tez/mr UI 页面

优化 Hive UI 跳转体验

2025年1月

EMR Serverless v 1.4.0版本于 2025年1月23日上线。

  • EMR Serverless 管控功能更新

产品

功能名称

功能描述

发布地域

EMR Serverless 队列

机型调整

新增1:2和1:8机型的支持,可以应用于独占队列。该功能白名单邀测中,如有需要,您可通过提工单的方式,联系客服开通

华南、柔佛、华北、华东

支持选择可用区

创建独占队列支持可用区选择,您可以在独占队列创建时选择需要的可用区

支持更改队列网络配置

支持修改已有队列的网络配置,对于跨 vpc 的新作业生效

账单中心中队列信息完善

创建队列时会将队列信息透传到官网账单中心中,使用队列名作为订单名。对于历史队列账单,会进行一次性的数据清洗

支持包年包月 GPU 资源

新增 GPU 资源,可用于独占队列。该功能白名单邀测中,如有需要,您可通过提工单的方式,联系客服开通

队列和计算组支持 on Bolt

创建独占队列和 spark、presto计算组支持 on Bolt。作业运行在on Bolt 队列或计算组时将默认开启 on Bolt;对于非 on Bolt 队列或计算组,用户可编辑队列开启 on Bolt,或在 Default 计算组指定 set emr.serverless.bolt.enabled=true 实现作业级别的 on Bolt。系统将为每个队列默认创建【E-MapReduce-Serverless / Bolt 按量 CU时 / 按量计费】订单,当前 on Bolt 不收费,后续将按照实际用量计费

新监控

支持控制台查看 Spark/Presto/Ray 等不同引擎的任务监控,并支持在云监控配置相关告警

支持分层桶

全新的基于分层元数据管理的桶类型,为您带来更好的大数据/AI场景数据使用体验。

  • 快速接入:无需对现有的 Hadoop、Spark 等大数据分析应用做任何修改
  • 协议互通:对象语义与文件语义透明互通,支持“一份数据支持多种访问协议”
  • 性能优化:高性能、原子性的目录与文件操作,时延相比扁平桶降低 99%+

公共队列合并

将原公共队列 Spark 与公共队列 Presto 合并,合并后的队列既可以执行 Spark 作业也可以执行 Presto 作业

路由更新

将 serverless-spark 路由改为 serverless

队列权限支持赋给角色

支持将队列权限赋予给 IAM 角色

作业列表

Serverless 作业在主页控制台作业管理菜单下透出
作业显示任务级别资源消耗
作业表格 UI 优化:支持自定义列、新筛选、可调节列宽

上线自驾

Serverless 全功能上线自驾 region

EMR Serverless 实例(OLAP)

权限功能更新

在 StarRocks 多仓版,支持给用户授权仓库时,选择绑定用户的默认仓库,该用户的查询将优先路由至绑定的默认仓库

开启默认角色功能

在权限管理页面,如果您没有开启 activate_all_roles_on_login,目前会提示您开启,以获得更流畅的 StarRocks 权限体验

支持 StarRocks 集群对接 Kerberos 认证

该功能白名单邀测中,如有需要,您可通过提工单的方式,联系客服开通

支持按照项目管理 OLAP 实例

您可以限制用户权限到项目维度。该功能白名单邀测中,如有需要,您可通过提工单的方式,联系客服开通

  • EMR Serverless 内核功能更新

组件名称

功能名称

功能描述

发布地域

Spark

支持 on Bolt

Bolt 使用 C++实现的向量化执行引擎、结合运行时 LLVM Codegen 代码生成技术,大幅提升了多核 CPU的并行执行性能效率。在分布式 SQL查询引擎 Spark 和 Presto 上,替换掉传统的 Java 引擎,比开源产品性能提升了 2~5 倍,大幅提升了查询速度、降低了资源成本。
您可以在创建队列和 spark 计算组时,勾选 on Bolt 选项。

华南、柔佛、华北、华东

pyspark ui 支持 thread dump

Spark WebUI 新增查看 Python Thread Dump 功能,您可以在 Spark 作业运行时,打开 WebUI,在 Executor界面点击 Python Thread Dump 链接,查看每个 executor/driver 当前所有 Python 进程的堆栈信息。

Presto

Presto on Bolt

Bolt 使用 C++实现的向量化执行引擎、结合运行时 LLVM Codegen 代码生成技术,大幅提升了多核 CPU 的并行执行性能效率。在分布式 SQL 查询引擎 Spark 和 Presto 上,替换掉传统的Java引擎,比开源产品性能提升了2~5倍,大幅提升了查询速度、降低了资源成本。说明您可以在创建 Presto 计算组时,勾选 Presto on Bolt 选项。

Presto 扩缩容

Presto 支持自动扩缩容功能, 在创建 Presto 计算组时可以根据业务场景设置常驻和弹性 Worker 数量. 如果弹性 Worker 数量大于 0,当计算组内有作业排队时, 就会触发弹性功能, 自动拉起弹性部分 Worker,从而可以快速高效地应对高峰期流量. 当计算组内作业执行结束以后,且在空闲周期内没有任务, 就会触发缩容逻辑, 自动收回弹性部分 Worker, 从而可以降低资源消耗.

Hive

版本 GA

默认计算组支持执行 Hive on Tez/MR 任务

Doris

版本更新

支持 2.1.8 版本

2024年12月

EMR Serverless v 1.3.0版本于 2024年12月1日上线。

  • EMR Serverless 管控功能更新

产品

功能名称

功能描述

发布地域

EMR Serverless 队列

统一队列

在同一队列,可使用多个引擎执行作业,当前支持 Spark/Hive/Presto/Ray 的作业,其中 Hive/Ray 为邀测功能,如有需要,您可通过提工单的方式,联系客服开通

华南、柔佛、华北、华东

独立计算组

新增计算组概念,计算组是队列下属的计算单元,可以独立划分队列的资源,并执行特定的作业。当前队列下会默认创建 Default 计算组,可以执行 Spark/Ray/Hive 作业。您也可以选择创建 Spark SQL Warehouse/Presto SQL Warehouse/Ray Cluster 三种独立计算组,其中 Ray Cluster 白名单邀测中,如有需要,您可通过提工单的方式,联系客服开通

自定义元数据

独占队列新增对自定义 HMS(HiveMetaStore)的支持,您可以设定自己的元数据访问路径,并使用 Serverless 队列查询该路径下的数据。

EMR Serverless 实例(OLAP)

机型调整

新增对 1:8 机型的支持,可以应用在 FE、BE/CN,该功能白名单邀测中,如有需要,您可通过提工单的方式,联系客服开通

参数项变更

在参数配置中,新增对 StarRocks 实例的参数支持:

  • make_snapshot_worker_count
    BE 节点快照任务的最大线程数,用于备份作业。默认值:5。增加此配置项的值可以增加快照任务并行度。
  • release_snapshot_worker_count
    BE 节点释放快照任务的最大线程数,用于备份作业异常清理。默认值:5。增加此配置项的值可以增加释放快照任务并行度。
  • upload_worker_count
    BE 节点上传任务的最大线程数,用于备份作业。默认值:0。0 表示设置线程数为 BE 所在机器的 CPU 核数。增加此配置项的值可以增加上传任务并行度。

新增监控/告警

新增对 StarRocks 实例 FE CPU 利用率的告警的支持,可在云监控页面进行配置。

滚动变配

在进行节点变配时,会默认采用滚动变配的方式,减少业务影响。

版本升级

对于 Starrocsk 多仓实例,新增了版本升级功能,可在页面上升级实例版本。升级为滚动升级,业务可能有波动,但不会有中断。同时支持升级检查、回滚/验收功能,可确保升级成功率,并保证业务衔接顺畅。

分时弹性

对于 StarRocks 多仓实例,按量付费仓库支持分时弹性功能,可根据业务要求,根据时间设定仓库的大小。分时弹性时间间隔最小为 2 小时。

华南、华北、华东

  • EMR Serverless 内核功能更新

组件名称

功能名称

功能描述

发布地域

Spark

大作业优化

  • 升级 Proton 版本到 1.9.0,添加参数fs.tos.get-file-status.enabled=true
  • 验证参数spark.kubernetes.allocation.batch.size
  • Spark 镜像默认安装 pyproton、添加 py-spy module
  • Spark 代码更改默认参数(spark和celeborn超时相关)
  • 大作业优化建议文档(代码、参数)

华南、柔佛、华北、华东

Presto

Presto on Bolt

Bolt 使用 C++实现的向量化执行引擎、结合运行时 LLVM Codegen 代码生成技术,大幅提升了多核 CPU 的并行执行性能效率。在分布式 SQL 查询引擎 Spark 和 Presto 上,替换掉传统的 Java 引擎,比开源产品性能提升了 2~5 倍,大幅提升了查询速度、降低了资源成本。

说明

您可以在创建 Presto 计算组时,勾选 Presto on Bolt 选项。

独占队列 UDF

支持在独占队列 Presto 计算组,执行 UDF。

Dataleap 执行 Presto SQL

支持在 Dataleap 提交 Presto 查询。

Hive

支持 Hive Job

可以在独占队列 Default 计算组提交 Hive 作业,功能邀测中,如有需要,您可通过提工单的方式,联系客服开通

Doris

版本更新

支持 2.1.7 版本

StarRocks

版本更新

新增 3.2.11.3 版本,在开源3.2.11 版本的基础上,进行了稳定性修复,当前使用 存算一体/存算分离 3.2.7 版本的用户可以在界面上升级。

2024年8月

EMR Serverless v 1.2.0 版本于 2024年8月16日上线。

  • EMR Serverless 管控功能更新

产品

功能名称

功能描述

发布地域

EMR Serverless Spark/Presto

队列权限控制

支持设置队列权限,当前可设置 Admin/Developer,Admin 可管理 Presto/Spark 队列,Developer 可在队列中提交作业。

华南、柔佛、华北、华东

队列创建 Quota 调整

独占队列 MAX 设置提升到 4090 CU,如需更多资源,请联系火山引擎支持调整。

SQL 编辑器体验优化

SQL 编辑器查询结果支持列名锁定。

EMR Serverless OLAP

权限管理

新增 StarRocks 实例权限管理,对接 StarRocks 3.X 全新权限系统。

重启优化

支持滚动重启 FE、BE/CN。

网络连接

对于 Starrocks 多仓实例,新增了“网络连接”页面,在网络连接页面,您可以更好的查看集群的连接信息,并配置公网 IP。

华南、华北、华东

启停仓库

对于 Starrocks 3.3+ 的多仓实例,支持对按量付费仓库手动启停,停止仓库后,不再对计算计费,仅收取云盘缓存费用,更好的节约成本。

  • EMR Serverless 内核功能更新

组件名称

功能名称

功能描述

发布地域

Spark

运行环境支持

新增 JDK 17

华南、柔佛、华北、华东

Presto

Presto on Bolt(邀测)

Bolt 使用 C++实现的向量化执行引擎、结合运行时 LLVM Codegen 代码生成技术,大幅提升了多核 CPU 的并行执行性能效率。在分布式 SQL 查询引擎 Spark 和 Presto 上,替换掉传统的Java引擎,比开源产品性能提升了 2~5倍,大幅提升了查询速度、降低了资源成本。

说明

您可以在创建 Presto 计算组时,勾选 Presto on Bolt 选项,此功能是邀测功能,如有需要,您可通过提工单的方式,联系客服开通

按列名读取 Parquet 文件

Serverless Presto 可以按照列名读取存储在 TOS 中的 Parquet 文件。

支持 Proton 单租户私部版(邀测)

Proton 是 火山引擎 EMR 推出的对 TOS(对象存储)的加速引擎,当前 Presto 可以读取单租户私有化部署的 Proton 集群,此功能是邀测功能,如有需要,您可通过提工单的方式,联系客服开通

StarRocks

版本更新

新增 3.3.3 版本,支持存算一体、存算分离(多仓 Multi-Warehouse)。

  • 在存算分离集群中,Warehouse 是一组计算节点(CN),可以为您提供执行查询、导入和数据处理任务所需的计算资源 (CPU、内存和临时存储)。每个 Warehouse 作为一个独立的计算资源池,可以物理隔离计算资源。
  • 在存算分离集群中,数据在多个 Warehouse 之间共享,但不同的 Warehouse 保持计算和内存资源的物理隔离。因此,您可以针对不同的业务需求创建多个 Warehouse ,比如Ad hoc Query Warehouse 、ETL Warehouse 和 Compaction Warehouse ,并轻松地将特定任务分配至各自的 Warehouse 。

华南、华北、华东

Doris

版本更新

支持1.2.7 版本

2024年7月

EMR Serverless v 1.1.0 版本于 2024年7月18日上线。

  • EMR Serverless 管控功能更新

产品

功能名称

功能描述

发布地域

EMR Serverless Spark

多 Catalog 支持

在提交作业时,可以切换托管在 LAS Catalog 中的不同 Catalog。

华南、柔佛、华北、华东

队列监控

当前新支持队列监控功能,您可以在公共队列、独占队列中-“队列监控”模块查看对应指标。公共队列支持“作业数量”监控,独占队列支持“作业数量”、“CPU 用量”、“内存用量”等监控。

EMR Serverless Presto

产品发布

发布 EMR Serverless Presto 产品,基于 LAS Catalog 提供统一元数据和权限管理服务,提供 Serverless 版交互式分析服务。

EMR Serverless OLAP

新开区

EMR Serverless OLAP 当前新支持 柔佛 地域,计费详见:标准计算资源--E-MapReduce-火山引擎

FE 高可用模式节点选择

在高可用模式下,支持选择 5 FE 节点。

默认开通端口

更新了实例开通的端口,当前可访问的端口为:

  • FE:9030 8030 9020
  • BE/CN: 8040 9060 8060
  • EMR Serverless 内核功能更新

组件名称

功能名称

功能描述

发布地域

Spark

PySpark 作业

支持提交 PySpark 作业,详见:PySpark作业开发指南--E-MapReduce-火山引擎

华南、柔佛、华北、华东

读写 Serverless StarRocks 实例

支持直读直写存算分离 Serverless StarRocks 实例,详见:Serverless Spark读写StarRocks(存算分离)操作手册--E-MapReduce-火山引擎

MaxCompute 函数兼容插件

内置 Maxcompute 函数兼容插件,可以在 Serverless Spark 中,兼容访问 Maxcompute 的函数,详见:MaxCompute Buildin Function Plugin--E-MapReduce-火山引擎

Starrocks

版本更新

支持 3.2.7 版本,含存算一体/存算分离。

2024年4月

EMR Serverless v 1.0.0 版本于 2024年4月28日上线。
本次 EMR Serverless Spark 主要发布 资源队列作业管理两个大模块,依托 LAS 进行统一元数据和数据权限管理,产品框架和云资源服务对接形式与 EMR on ECS 保持一致。

  • EMR Serverless 管控功能更新

产品

功能名称

功能描述

发布地域

EMR Serverless Spark

资源队列

支持创建队列、SQL 专用资源、通用资源和队列管理等功能。

华南、柔佛、华北、华东

作业管理

支持创建 SQL 作业、创建 Jar 作业和作业控制等功能。