EMR Serverless 功能发布记录--E-MapReduce-火山引擎

文档中心

导航

EMR Serverless 功能发布记录

最近更新时间：2025.03.12 15:55:25首次发布时间：2024.11.29 15:22:25

2025年3月

EMR Serverless v 1.5.0版本于 2025年3月6日上线。

EMR Serverless 管控功能更新

产品	功能名称	功能描述	发布地域
EMR Serverless 队列	支持跨 VPC 访问域名	支持跨 VPC 任务，访问您 VPC 下的 privateZone 等私网域名（需要通过参数开启）	华南、柔佛、华北、华东、华北自驾
	计算组设置半托管 HMS 支持域名和连接测试	计算组和队列支持设置 EMR 半托管 HMS 时支持设置域名，并且支持连接测试。已有计算组要替换为 HMS 域名时需重启计算组
	全局计费、退费、更配金额优化	队列创建、更配页面增加计费变更金额明细
	作业列表增加最近操作人字段	作业列表增加【操作人】字段，默认为作业创建人，当作业重跑、停止后会记录最近操作人
	公共队列 GPU 资源参数统一	公共队列 GPU 参数设置屏蔽底层 VKE、VCI 资源的差异，使用姿势上用同一套参数
	查询任务级别资源消耗	作业列表里新增峰值内存、Shuffle Read、Shuffle Write 展示。历史作业不会包含该信息，作业运行完成后预计会延迟5分钟左右生成该数据
	Ray GPU 限制问题	公共队列 head 节点不分配 GPU 资源时，不调度到 GPU 节点池
	Serverless 队列中，可以通过优先级设置，让更高优的作业拿到资源	在公共队列和独占队列默认计算组场景下，Spark 和 Ray 支持通过参数设定任务优先级
	新增创建队列入口	在EMR 总览页面，新增创建 EMR Serverless 队列入口
	队列名称支持复制	队列详情页支持队列名称复制
	作业列表展示 Dataleap 的原始作业信息	队列内的作业列表支持展示 Dataleap 的原始作业 ID /名称
EMR Serverless 实例（OLAP）	UDF 产品化	当前，您可以在产品页面创建管理 StarRocks/Doris 的 UDF	华南、柔佛、华北、华东、华北自驾
	节点重启功能优化	当前，您可以选定要重启的具体节点，以便更好的运维 EMR Serverless 实例
	提示横幅公告	在实例没有开启云监控时，您将收到开启告警的提示，您可以在云监控页面配置针对 EMR Serverless 实例的告警
	Doris 实例升级	升级功能添加了对 Doris 实例的支持，您可以在版本升级说明中查看支持升级的版本
	实例 FE 变配优化	当前您可以将非高可用实例转换为高可用实例，同时，您可以扩容 FE 数据盘的大小，以适配不同业务场景
	网络连接页面优化	在所有实例新增网络连接页面，您可以在该页面查看实例的连接地址，及管理白名单
	出方向白名单	在网络连接页面您可以配置实例的出方向白名单，用于放通对外部 Catalog 的访问
	自定义参数	在参数配置页面，您可以对实例进行自定义参数配置，配置后需要重启实例生效。对于 StarRocks 多仓实例，您可以分别对不同的仓库配置不同的参数
	价格条展示优化	对价格条展示进行了优化，您可以看到更详细的计费规则
	实例修改项目、标签	支持对实例修改项目、标签
	新增创建实例入口	在EMR总览页面，新增创建 EMR Serverless 实例入口，总览页支持预览 Serverless 实例

EMR Serverless 内核功能更新

组件名称	功能名称	功能描述	发布地域
Spark	分层桶（HNS）场景下 Spark commiter 优化	提供原子性的的目录、文件操作，写入表性能更优	华南、柔佛、华北、华东、华北自驾
Spark	分区表创建完成后，insert/overwrite 数据时更新 partition 信息	proton-spark extension 在写表结束时将 numRow 统计信息更新到 LAS catalog	华南、柔佛、华北、华东、华北自驾
Presto	Presto 支持读 paimon 数据	Presto 支持直接读取 Paimon 表数据，提供分区裁剪、列裁剪等优化能力	华南、柔佛、华北、华东
Hive	创建抢占型计算组支持抢占 hive rm/nm pod	hive rm/nm pod 目前会占用 4cu 的资源，创建抢占型计算组支持抢占这些资源
Hive	Hive 任务执行过程中支持从 Yarn 页面跳转到tez/mr UI 页面	优化 Hive UI 跳转体验

2025年1月

EMR Serverless v 1.4.0版本于 2025年1月23日上线。

EMR Serverless 管控功能更新

产品	功能名称	功能描述	发布地域
EMR Serverless 队列	机型调整	新增1:2和1:8机型的支持，可以应用于独占队列。该功能白名单邀测中，如有需要，您可通过提工单的方式，联系客服开通	华南、柔佛、华北、华东
	支持选择可用区	创建独占队列支持可用区选择，您可以在独占队列创建时选择需要的可用区
	支持更改队列网络配置	支持修改已有队列的网络配置，对于跨 vpc 的新作业生效
	账单中心中队列信息完善	创建队列时会将队列信息透传到官网账单中心中，使用队列名作为订单名。对于历史队列账单，会进行一次性的数据清洗
	支持包年包月 GPU 资源	新增 GPU 资源，可用于独占队列。该功能白名单邀测中，如有需要，您可通过提工单的方式，联系客服开通
	队列和计算组支持 on Bolt	创建独占队列和 spark、presto计算组支持 on Bolt。作业运行在on Bolt 队列或计算组时将默认开启 on Bolt；对于非 on Bolt 队列或计算组，用户可编辑队列开启 on Bolt，或在 Default 计算组指定 `set emr.serverless.bolt.enabled=true` 实现作业级别的 on Bolt。系统将为每个队列默认创建【E-MapReduce-Serverless / Bolt 按量 CU时 / 按量计费】订单，当前 on Bolt 不收费，后续将按照实际用量计费
	新监控	支持控制台查看 Spark/Presto/Ray 等不同引擎的任务监控，并支持在云监控配置相关告警
	支持分层桶	全新的基于分层元数据管理的桶类型，为您带来更好的大数据/AI场景数据使用体验。快速接入：无需对现有的 Hadoop、Spark 等大数据分析应用做任何修改协议互通：对象语义与文件语义透明互通，支持“一份数据支持多种访问协议” 性能优化：高性能、原子性的目录与文件操作，时延相比扁平桶降低 99%+
	公共队列合并	将原公共队列 Spark 与公共队列 Presto 合并，合并后的队列既可以执行 Spark 作业也可以执行 Presto 作业
	路由更新	将 serverless-spark 路由改为 serverless
	队列权限支持赋给角色	支持将队列权限赋予给 IAM 角色
	作业列表	Serverless 作业在主页控制台作业管理菜单下透出作业显示任务级别资源消耗作业表格 UI 优化：支持自定义列、新筛选、可调节列宽
	上线自驾	Serverless 全功能上线自驾 region
EMR Serverless 实例（OLAP）	权限功能更新	在 StarRocks 多仓版，支持给用户授权仓库时，选择绑定用户的默认仓库，该用户的查询将优先路由至绑定的默认仓库
	开启默认角色功能	在权限管理页面，如果您没有开启 activate_all_roles_on_login，目前会提示您开启，以获得更流畅的 StarRocks 权限体验
	支持 StarRocks 集群对接 Kerberos 认证	该功能白名单邀测中，如有需要，您可通过提工单的方式，联系客服开通
	支持按照项目管理 OLAP 实例	您可以限制用户权限到项目维度。该功能白名单邀测中，如有需要，您可通过提工单的方式，联系客服开通

EMR Serverless 内核功能更新

组件名称	功能名称	功能描述	发布地域
Spark	支持 on Bolt	Bolt 使用 C++实现的向量化执行引擎、结合运行时 LLVM Codegen 代码生成技术，大幅提升了多核 CPU的并行执行性能效率。在分布式 SQL查询引擎 Spark 和 Presto 上，替换掉传统的 Java 引擎，比开源产品性能提升了 2~5 倍，大幅提升了查询速度、降低了资源成本。您可以在创建队列和 spark 计算组时，勾选 on Bolt 选项。	华南、柔佛、华北、华东
Spark	pyspark ui 支持 thread dump	Spark WebUI 新增查看 Python Thread Dump 功能，您可以在 Spark 作业运行时，打开 WebUI，在 Executor界面点击 Python Thread Dump 链接，查看每个 executor/driver 当前所有 Python 进程的堆栈信息。
Presto	Presto on Bolt	Bolt 使用 C++实现的向量化执行引擎、结合运行时 LLVM Codegen 代码生成技术，大幅提升了多核 CPU 的并行执行性能效率。在分布式 SQL 查询引擎 Spark 和 Presto 上，替换掉传统的Java引擎，比开源产品性能提升了2~5倍，大幅提升了查询速度、降低了资源成本。说明您可以在创建 Presto 计算组时，勾选 Presto on Bolt 选项。
Presto	Presto 扩缩容	Presto 支持自动扩缩容功能, 在创建 Presto 计算组时可以根据业务场景设置常驻和弹性 Worker 数量. 如果弹性 Worker 数量大于 0，当计算组内有作业排队时, 就会触发弹性功能, 自动拉起弹性部分 Worker，从而可以快速高效地应对高峰期流量. 当计算组内作业执行结束以后，且在空闲周期内没有任务, 就会触发缩容逻辑, 自动收回弹性部分 Worker，从而可以降低资源消耗.
Hive	版本 GA	默认计算组支持执行 Hive on Tez/MR 任务
Doris	版本更新	支持 2.1.8 版本

2024年12月

EMR Serverless v 1.3.0版本于 2024年12月1日上线。

EMR Serverless 管控功能更新

产品	功能名称	功能描述	发布地域
EMR Serverless 队列	统一队列	在同一队列，可使用多个引擎执行作业，当前支持 Spark/Hive/Presto/Ray 的作业，其中 Hive/Ray 为邀测功能，如有需要，您可通过提工单的方式，联系客服开通	华南、柔佛、华北、华东
	独立计算组	新增计算组概念，计算组是队列下属的计算单元，可以独立划分队列的资源，并执行特定的作业。当前队列下会默认创建 Default 计算组，可以执行 Spark/Ray/Hive 作业。您也可以选择创建 Spark SQL Warehouse/Presto SQL Warehouse/Ray Cluster 三种独立计算组，其中 Ray Cluster 白名单邀测中，如有需要，您可通过提工单的方式，联系客服开通
	自定义元数据	独占队列新增对自定义 HMS（HiveMetaStore）的支持，您可以设定自己的元数据访问路径，并使用 Serverless 队列查询该路径下的数据。
EMR Serverless 实例（OLAP）	机型调整	新增对 1:8 机型的支持，可以应用在 FE、BE/CN，该功能白名单邀测中，如有需要，您可通过提工单的方式，联系客服开通
	参数项变更	在参数配置中，新增对 StarRocks 实例的参数支持： make_snapshot_worker_count BE 节点快照任务的最大线程数，用于备份作业。默认值：5。增加此配置项的值可以增加快照任务并行度。 release_snapshot_worker_count BE 节点释放快照任务的最大线程数，用于备份作业异常清理。默认值：5。增加此配置项的值可以增加释放快照任务并行度。 upload_worker_count BE 节点上传任务的最大线程数，用于备份作业。默认值：0。0 表示设置线程数为 BE 所在机器的 CPU 核数。增加此配置项的值可以增加上传任务并行度。
	新增监控/告警	新增对 StarRocks 实例 FE CPU 利用率的告警的支持，可在云监控页面进行配置。
	滚动变配	在进行节点变配时，会默认采用滚动变配的方式，减少业务影响。
	版本升级	对于 Starrocsk 多仓实例，新增了版本升级功能，可在页面上升级实例版本。升级为滚动升级，业务可能有波动，但不会有中断。同时支持升级检查、回滚/验收功能，可确保升级成功率，并保证业务衔接顺畅。
	分时弹性	对于 StarRocks 多仓实例，按量付费仓库支持分时弹性功能，可根据业务要求，根据时间设定仓库的大小。分时弹性时间间隔最小为 2 小时。	华南、华北、华东

EMR Serverless 内核功能更新

组件名称	功能名称	功能描述	发布地域
Spark	大作业优化	升级 Proton 版本到 1.9.0，添加参数`fs.tos.get-file-status.enabled=true` 验证参数`spark.kubernetes.allocation.batch.size` Spark 镜像默认安装 pyproton、添加 py-spy module Spark 代码更改默认参数（spark和celeborn超时相关）大作业优化建议文档（代码、参数）	华南、柔佛、华北、华东
Presto	Presto on Bolt	Bolt 使用 C++实现的向量化执行引擎、结合运行时 LLVM Codegen 代码生成技术，大幅提升了多核 CPU 的并行执行性能效率。在分布式 SQL 查询引擎 Spark 和 Presto 上，替换掉传统的 Java 引擎，比开源产品性能提升了 2~5 倍，大幅提升了查询速度、降低了资源成本。说明您可以在创建 Presto 计算组时，勾选 Presto on Bolt 选项。
	独占队列 UDF	支持在独占队列 Presto 计算组，执行 UDF。
	Dataleap 执行 Presto SQL	支持在 Dataleap 提交 Presto 查询。
Hive	支持 Hive Job	可以在独占队列 Default 计算组提交 Hive 作业，功能邀测中，如有需要，您可通过提工单的方式，联系客服开通
Doris	版本更新	支持 2.1.7 版本
StarRocks	版本更新	新增 3.2.11.3 版本，在开源3.2.11 版本的基础上，进行了稳定性修复，当前使用存算一体/存算分离 3.2.7 版本的用户可以在界面上升级。

2024年8月

EMR Serverless v 1.2.0 版本于 2024年8月16日上线。

EMR Serverless 管控功能更新

产品	功能名称	功能描述	发布地域
EMR Serverless Spark/Presto	队列权限控制	支持设置队列权限，当前可设置 Admin/Developer，Admin 可管理 Presto/Spark 队列，Developer 可在队列中提交作业。	华南、柔佛、华北、华东
	队列创建 Quota 调整	独占队列 MAX 设置提升到 4090 CU，如需更多资源，请联系火山引擎支持调整。
	SQL 编辑器体验优化	SQL 编辑器查询结果支持列名锁定。
EMR Serverless OLAP	权限管理	新增 StarRocks 实例权限管理，对接 StarRocks 3.X 全新权限系统。
	重启优化	支持滚动重启 FE、BE/CN。
	网络连接	对于 Starrocks 多仓实例，新增了“网络连接”页面，在网络连接页面，您可以更好的查看集群的连接信息，并配置公网 IP。	华南、华北、华东
	启停仓库	对于 Starrocks 3.3+ 的多仓实例，支持对按量付费仓库手动启停，停止仓库后，不再对计算计费，仅收取云盘缓存费用，更好的节约成本。	华南、华北、华东

EMR Serverless 内核功能更新

组件名称	功能名称	功能描述	发布地域
Spark	运行环境支持	新增 JDK 17	华南、柔佛、华北、华东
Presto	Presto on Bolt（邀测）	Bolt 使用 C++实现的向量化执行引擎、结合运行时 LLVM Codegen 代码生成技术，大幅提升了多核 CPU 的并行执行性能效率。在分布式 SQL 查询引擎 Spark 和 Presto 上，替换掉传统的Java引擎，比开源产品性能提升了 2~5倍，大幅提升了查询速度、降低了资源成本。说明您可以在创建 Presto 计算组时，勾选 Presto on Bolt 选项，此功能是邀测功能，如有需要，您可通过提工单的方式，联系客服开通
	按列名读取 Parquet 文件	Serverless Presto 可以按照列名读取存储在 TOS 中的 Parquet 文件。
	支持 Proton 单租户私部版（邀测）	Proton 是火山引擎 EMR 推出的对 TOS（对象存储）的加速引擎，当前 Presto 可以读取单租户私有化部署的 Proton 集群，此功能是邀测功能，如有需要，您可通过提工单的方式，联系客服开通
StarRocks	版本更新	新增 3.3.3 版本，支持存算一体、存算分离（多仓 Multi-Warehouse）。在存算分离集群中，Warehouse 是一组计算节点（CN），可以为您提供执行查询、导入和数据处理任务所需的计算资源（CPU、内存和临时存储）。每个 Warehouse 作为一个独立的计算资源池，可以物理隔离计算资源。在存算分离集群中，数据在多个 Warehouse 之间共享，但不同的 Warehouse 保持计算和内存资源的物理隔离。因此，您可以针对不同的业务需求创建多个 Warehouse ，比如Ad hoc Query Warehouse 、ETL Warehouse 和 Compaction Warehouse ，并轻松地将特定任务分配至各自的 Warehouse 。	华南、华北、华东
Doris	版本更新	支持1.2.7 版本	华南、华北、华东

2024年7月

EMR Serverless v 1.1.0 版本于 2024年7月18日上线。

EMR Serverless 管控功能更新

产品	功能名称	功能描述	发布地域
EMR Serverless Spark	多 Catalog 支持	在提交作业时，可以切换托管在 LAS Catalog 中的不同 Catalog。	华南、柔佛、华北、华东
EMR Serverless Spark	队列监控	当前新支持队列监控功能，您可以在公共队列、独占队列中-“队列监控”模块查看对应指标。公共队列支持“作业数量”监控，独占队列支持“作业数量”、“CPU 用量”、“内存用量”等监控。
EMR Serverless Presto	产品发布	发布 EMR Serverless Presto 产品，基于 LAS Catalog 提供统一元数据和权限管理服务，提供 Serverless 版交互式分析服务。
EMR Serverless OLAP	新开区	EMR Serverless OLAP 当前新支持柔佛地域，计费详见：标准计算资源--E-MapReduce-火山引擎。
	FE 高可用模式节点选择	在高可用模式下，支持选择 5 FE 节点。
	默认开通端口	更新了实例开通的端口，当前可访问的端口为： FE：9030 8030 9020 BE/CN: 8040 9060 8060

EMR Serverless 内核功能更新

组件名称	功能名称	功能描述	发布地域
Spark	PySpark 作业	支持提交 PySpark 作业，详见：PySpark作业开发指南--E-MapReduce-火山引擎。	华南、柔佛、华北、华东
	读写 Serverless StarRocks 实例	支持直读直写存算分离 Serverless StarRocks 实例，详见：Serverless Spark读写StarRocks(存算分离)操作手册--E-MapReduce-火山引擎。
	MaxCompute 函数兼容插件	内置 Maxcompute 函数兼容插件，可以在 Serverless Spark 中，兼容访问 Maxcompute 的函数，详见：MaxCompute Buildin Function Plugin--E-MapReduce-火山引擎。
Starrocks	版本更新	支持 3.2.7 版本，含存算一体/存算分离。

2024年4月

EMR Serverless v 1.0.0 版本于 2024年4月28日上线。
本次 EMR Serverless Spark 主要发布 资源队列和作业管理两个大模块，依托 LAS 进行统一元数据和数据权限管理，产品框架和云资源服务对接形式与 EMR on ECS 保持一致。

EMR Serverless 管控功能更新

产品	功能名称	功能描述	发布地域
EMR Serverless Spark	资源队列	支持创建队列、SQL 专用资源、通用资源和队列管理等功能。	华南、柔佛、华北、华东
EMR Serverless Spark	作业管理	支持创建 SQL 作业、创建 Jar 作业和作业控制等功能。	华南、柔佛、华北、华东