You need to enable JavaScript to run this app.
导航
EMR Serverless 功能发布记录
最近更新时间:2025.01.26 17:49:40首次发布时间:2024.11.29 15:22:25

2025年1月

EMR Serverless v 1.4.0版本于 2025年1月23日上线。

  • EMR Serverless 管控功能更新

产品

功能名称

功能描述

发布地域

EMR Serverless 队列

机型调整

新增1:2和1:8机型的支持,可以应用于独占队列。该功能白名单邀测中,如有需要,请联系火山引擎客服开通。

华南、柔佛、华北、华东

支持选择可用区

创建独占队列支持可用区选择,您可以在独占队列创建时选择需要的可用区。

支持更改队列网络配置

支持修改已有队列的网络配置,对于跨 vpc 的新作业生效。

账单中心中队列信息完善

创建队列时会将队列信息透传到官网账单中心中,使用队列名作为订单名。对于历史队列账单,会进行一次性的数据清洗。

支持包年包月 GPU 资源

新增 GPU 资源,可用于独占队列。该功能白名单邀测中,如有需要,请联系火山引擎客服开通。

队列和计算组支持 on Bolt

创建独占队列和 spark、presto计算组支持 on Bolt。作业运行在on Bolt 队列或计算组时将默认开启 on Bolt;对于非 on Bolt 队列或计算组,用户可编辑队列开启 on Bolt,或在 Default 计算组指定 set emr.serverless.bolt.enabled=true实现作业级别的 on Bolt。系统将为每个队列默认创建【E-MapReduce-Serverless / Bolt 按量 CU时 / 按量计费】订单,当前 on Bolt 不收费,后续将按照实际用量计费。

新监控

支持控制台查看 Spark/Presto/Ray 等不同引擎的任务监控,并支持在云监控配置相关告警。

支持分层桶

全新的基于分层元数据管理的桶类型,为您带来更好的大数据/AI场景数据使用体验
快速接入:无需对现有的 Hadoop、Spark 等大数据分析应用做任何修改
协议互通:对象语义与文件语义透明互通,支持“一份数据支持多种访问协议”
性能优化:高性能、原子性的目录与文件操作,时延相比扁平桶降低 99%+

公共队列合并

将原公共队列 Spark 与公共队列 Presto 合并,合并后的队列既可以执行 Spark 作业也可以执行 Presto 作业

路由更新

将 serverless-spark 路由改为 serverless

队列权限支持赋给角色

支持将队列权限赋予给 IAM 角色

作业列表

Serverless 作业在主页控制台作业管理菜单下透出
作业显示任务级别资源消耗
作业表格 UI 优化:支持自定义列、新筛选、可调节列宽

上线自驾

Serverless 全功能上线自驾 region

  • EMR Serverless 内核功能更新

组件名称

功能名称

功能描述

发布地域

Spark

支持 on Bolt

Bolt 使用 C++实现的向量化执行引擎、结合运行时 LLVM Codegen 代码生成技术,大幅提升了多核 CPU的并行执行性能效率。在分布式 SQL查询引擎 Spark 和 Presto 上,替换掉传统的 Java 引擎,比开源产品性能提升了 2~5 倍,大幅提升了查询速度、降低了资源成本。
您可以在创建队列和 spark 计算组时,勾选 on Bolt 选项。

华南、柔佛、华北、华东

pyspark ui 支持 thread dump

Spark WebUI 新增查看 Python Thread Dump 功能,您可以在 Spark 作业运行时,打开 WebUI,在 Executor界面点击 Python Thread Dump 链接,查看每个 executor/driver 当前所有 Python 进程的堆栈信息。

Presto

Presto on Bolt

Bolt 使用 C++实现的向量化执行引擎、结合运行时 LLVM Codegen 代码生成技术,大幅提升了多核 CPU 的并行执行性能效率。在分布式 SQL 查询引擎 Spark 和 Presto 上,替换掉传统的Java引擎,比开源产品性能提升了2~5倍,大幅提升了查询速度、降低了资源成本。说明您可以在创建 Presto 计算组时,勾选 Presto on Bolt 选项。

Presto 扩缩容

Presto 支持自动扩缩容功能, 在创建 Presto 计算组时可以根据业务场景设置常驻和弹性 Worker 数量. 如果弹性 Worker 数量大于 0,当计算组内有作业排队时, 就会触发弹性功能, 自动拉起弹性部分 Worker,从而可以快速高效地应对高峰期流量. 当计算组内作业执行结束以后,且在空闲周期内没有任务, 就会触发缩容逻辑, 自动收回弹性部分 Worker, 从而可以降低资源消耗.

Hive

版本 GA

默认计算组支持执行 hive on tez/mr 任务

2024年12月

EMR Serverless v 1.3.0版本于 2024年12月1日上线。

  • EMR Serverless 管控功能更新

产品

功能名称

功能描述

发布地域

EMR Serverless 队列

统一队列

在同一队列,可使用多个引擎执行作业,当前支持 Spark/Hive/Presto/Ray 的作业,其中 Hive/Ray 为邀测功能,如有需要,请联系火山引擎客服开通。

华南、柔佛、华北、华东

独立计算组

新增计算组概念,计算组是队列下属的计算单元,可以独立划分队列的资源,并执行特定的作业。当前队列下会默认创建 Default 计算组,可以执行 Spark/Ray/Hive 作业。您也可以选择创建 Spark SQL Warehouse/Presto SQL Warehouse/Ray Cluster 三种独立计算组,其中 Ray Cluster 白名单邀测中,如有需要,请联系火山引擎客服开通。

自定义元数据

独占队列新增对自定义 HMS(HiveMetaStore)的支持,您可以设定自己的元数据访问路径,并使用 Serverless 队列查询该路径下的数据。

EMR Serverless 实例(OLAP)

机型调整

新增对 1:8 机型的支持,可以应用在 FE、BE/CN,该功能白名单邀测中,如有需要,请联系火山引擎客服开通。

参数项变更

在参数配置中,新增对 StarRocks 实例的参数支持:

  • make_snapshot_worker_count
    BE 节点快照任务的最大线程数,用于备份作业。默认值:5。增加此配置项的值可以增加快照任务并行度。
  • release_snapshot_worker_count
    BE 节点释放快照任务的最大线程数,用于备份作业异常清理。默认值:5。增加此配置项的值可以增加释放快照任务并行度。
  • upload_worker_count
    BE 节点上传任务的最大线程数,用于备份作业。默认值:0。0 表示设置线程数为 BE 所在机器的 CPU 核数。增加此配置项的值可以增加上传任务并行度。

新增监控/告警

新增对 StarRocks 实例 FE CPU 利用率的告警的支持,可在云监控页面进行配置。

滚动变配

在进行节点变配时,会默认采用滚动变配的方式,减少业务影响。

版本升级

对于 Starrocsk 多仓实例,新增了版本升级功能,可在页面上升级实例版本。升级为滚动升级,业务可能有波动,但不会有中断。同时支持升级检查、回滚/验收功能,可确保升级成功率,并保证业务衔接顺畅。

分时弹性

对于 StarRocks 多仓实例,按量付费仓库支持分时弹性功能,可根据业务要求,根据时间设定仓库的大小。分时弹性时间间隔最小为 2 小时。

华南、华北、华东

  • EMR Serverless 内核功能更新

组件名称

功能名称

功能描述

发布地域

Spark

大作业优化

  • 升级 Proton 版本到 1.9.0,添加参数fs.tos.get-file-status.enabled=true
  • 验证参数spark.kubernetes.allocation.batch.size
  • Spark 镜像默认安装 pyproton、添加 py-spy module
  • Spark 代码更改默认参数(spark和celeborn超时相关)
  • 大作业优化建议文档(代码、参数)

华南、柔佛、华北、华东

Presto

Presto on Bolt

Bolt 使用 C++实现的向量化执行引擎、结合运行时 LLVM Codegen 代码生成技术,大幅提升了多核 CPU 的并行执行性能效率。在分布式 SQL 查询引擎 Spark 和 Presto 上,替换掉传统的 Java 引擎,比开源产品性能提升了 2~5 倍,大幅提升了查询速度、降低了资源成本。

说明

您可以在创建 Presto 计算组时,勾选 Presto on Bolt 选项。

独占队列 UDF

支持在独占队列 Presto 计算组,执行 UDF。

Dataleap 执行 Presto SQL

支持在 Dataleap 提交 Presto 查询。

Hive

支持 Hive Job

可以在独占队列 Default 计算组提交 Hive 作业,功能邀测中,如有需要,请联系火山引擎客服开通。

Doris

版本更新

支持 2.1.7 版本

StarRocks

版本更新

新增 3.2.11.3 版本,在开源3.2.11 版本的基础上,进行了稳定性修复,当前使用 存算一体/存算分离 3.2.7 版本的用户可以在界面上升级。

2024年8月

EMR Serverless v 1.2.0 版本于 2024年8月16日上线。

  • EMR Serverless 管控功能更新

产品

功能名称

功能描述

发布地域

EMR Serverless Spark/Presto

队列权限控制

支持设置队列权限,当前可设置 Admin/Developer,Admin 可管理 Presto/Spark 队列,Developer 可在队列中提交作业。

华南、柔佛、华北、华东

队列创建 Quota 调整

独占队列 MAX 设置提升到 4090 CU,如需更多资源,请联系火山引擎支持调整。

SQL 编辑器体验优化

SQL 编辑器查询结果支持列名锁定。

EMR Serverless OLAP

权限管理

新增 StarRocks 实例权限管理,对接 StarRocks 3.X 全新权限系统。

重启优化

支持滚动重启 FE、BE/CN。

网络连接

对于 Starrocks 多仓实例,新增了“网络连接”页面,在网络连接页面,您可以更好的查看集群的连接信息,并配置公网 IP。

华南、华北、华东

启停仓库

对于 Starrocks 3.3+ 的多仓实例,支持对按量付费仓库手动启停,停止仓库后,不再对计算计费,仅收取云盘缓存费用,更好的节约成本。

  • EMR Serverless 内核功能更新

组件名称

功能名称

功能描述

发布地域

Spark

运行环境支持

新增 JDK 17

华南、柔佛、华北、华东

Presto

Presto on Bolt(邀测)

Bolt 使用 C++实现的向量化执行引擎、结合运行时 LLVM Codegen 代码生成技术,大幅提升了多核 CPU 的并行执行性能效率。在分布式 SQL 查询引擎 Spark 和 Presto 上,替换掉传统的Java引擎,比开源产品性能提升了 2~5倍,大幅提升了查询速度、降低了资源成本。

说明

您可以在创建 Presto 计算组时,勾选 Presto on Bolt 选项,此功能是邀测功能,如需开通,请联系火山引擎支持。

按列名读取 Parquet 文件

Serverless Presto 可以按照列名读取存储在 TOS 中的 Parquet 文件。

支持 Proton 单租户私部版(邀测)

Proton 是 火山引擎 EMR 推出的对 TOS(对象存储)的加速引擎,当前 Presto 可以读取单租户私有化部署的 Proton 集群,此功能是邀测功能,如需开通,请联系火山引擎支持。

StarRocks

版本更新

新增 3.3.3 版本,支持存算一体、存算分离(多仓 Multi-Warehouse)。

  • 在存算分离集群中,Warehouse 是一组计算节点(CN),可以为您提供执行查询、导入和数据处理任务所需的计算资源 (CPU、内存和临时存储)。每个 Warehouse 作为一个独立的计算资源池,可以物理隔离计算资源。
  • 在存算分离集群中,数据在多个 Warehouse 之间共享,但不同的 Warehouse 保持计算和内存资源的物理隔离。因此,您可以针对不同的业务需求创建多个 Warehouse ,比如Ad hoc Query Warehouse 、ETL Warehouse 和 Compaction Warehouse ,并轻松地将特定任务分配至各自的 Warehouse 。

华南、华北、华东

Doris

版本更新

支持1.2.7 版本

2024年7月

EMR Serverless v 1.1.0 版本于 2024年7月18日上线。

  • EMR Serverless 管控功能更新

产品

功能名称

功能描述

发布地域

EMR Serverless Spark

多 Catalog 支持

在提交作业时,可以切换托管在 LAS Catalog 中的不同 Catalog。

华南、柔佛、华北、华东

队列监控

当前新支持队列监控功能,您可以在公共队列、独占队列中-“队列监控”模块查看对应指标。公共队列支持“作业数量”监控,独占队列支持“作业数量”、“CPU 用量”、“内存用量”等监控。

EMR Serverless Presto

产品发布

发布 EMR Serverless Presto 产品,基于 LAS Catalog 提供统一元数据和权限管理服务,提供 Serverless 版交互式分析服务。

EMR Serverless OLAP

新开区

EMR Serverless OLAP 当前新支持 柔佛 地域,计费详见:标准计算资源--E-MapReduce-火山引擎

FE 高可用模式节点选择

在高可用模式下,支持选择 5 FE 节点。

默认开通端口

更新了实例开通的端口,当前可访问的端口为:

  • FE:9030 8030 9020
  • BE/CN: 8040 9060 8060
  • EMR Serverless 内核功能更新

组件名称

功能名称

功能描述

发布地域

Spark

PySpark 作业

支持提交 PySpark 作业,详见:PySpark作业开发指南--E-MapReduce-火山引擎

华南、柔佛、华北、华东

读写 Serverless StarRocks 实例

支持直读直写存算分离 Serverless StarRocks 实例,详见:Serverless Spark读写StarRocks(存算分离)操作手册--E-MapReduce-火山引擎

MaxCompute 函数兼容插件

内置 Maxcompute 函数兼容插件,可以在 Serverless Spark 中,兼容访问 Maxcompute 的函数,详见:MaxCompute Buildin Function Plugin--E-MapReduce-火山引擎

Starrocks

版本更新

支持 3.2.7 版本,含存算一体/存算分离。

2024年4月

EMR Serverless v 1.0.0 版本于 2024年4月28日上线。
本次 EMR Serverless Spark 主要发布 资源队列作业管理两个大模块,依托 LAS 进行统一元数据和数据权限管理,产品框架和云资源服务对接形式与 EMR on ECS 保持一致。

  • EMR Serverless 管控功能更新

产品

功能名称

功能描述

发布地域

EMR Serverless Spark

资源队列

支持创建队列、SQL 专用资源、通用资源和队列管理等功能。

华南、柔佛、华北、华东

作业管理

支持创建 SQL 作业、创建 Jar 作业和作业控制等功能。