帮助文档--E-MapReduce-火山引擎

文档中心

文档备案控制台

登录立即注册

导航

E-MapReduce

搜索目录或文档标题搜索目录或文档标题

产品动态与公告

产品公告

【公告】E-MapReduce Serverless 商业化公告

【公告】EMR on VKE 商业化公告

【调价】开源大数据平台 E-MapReduce 刊例价与退订规则调整

【调价】开源大数据平台E-MapReduce部分地域刊例价调整

【调价】开源大数据平台E-MapReduce部分地域刊例价调整

【调价】开源大数据平台E-MapReduce刊例价调整

产品动态

EMR on ECS 功能发布记录

EMR on VKE 功能发布记录

EMR Serverless 队列功能发布记录

EMR Serverless 实例内核发布记录

产品简介

EMR 产品形态选型指南

应用场景

EMR on ECS 应用场景

EMR on VKE 应用场景

EMR Serverless 应用场景

使用限制

EMR on ECS 使用限制

EMR on VKE 使用限制

开源组件使用限制

发行版本

EMR on ECS

发行版本

版本说明

EMR 3.x版本

EMR-3.16.0发布说明

EMR-3.15.0发布说明

EMR-3.14.0发布说明

EMR-3.13.0发布说明

EMR-3.12.0发布说明

EMR-3.11.0发布说明

EMR-3.10.0发布说明

EMR-3.9.0发布说明

EMR-3.8.0 版本说明

EMR-3.7.0 版本说明

EMR-3.6.X 版本说明

EMR-3.6.2 版本说明

EMR-3.6.1 版本说明

EMR-3.6.0 版本说明

EMR-3.5.X 版本说明

EMR-3.5.4 版本说明

EMR-3.5.3 版本说明

EMR-3.5.2 版本说明

EMR-3.5.1 版本说明

EMR-3.5.0 版本说明

EMR-3.4.X 版本

EMR 3.4.11 版本说明

EMR 3.4.10 版本说明

EMR-3.4.9 版本说明

EMR-3.4.8 版本说明

EMR-3.4.7 版本说明

EMR-3.4.6 版本说明

EMR-3.4.4 版本说明

EMR-3.4.3 版本说明

ERM-3.4.2 版本说明

EMR-3.4.0 版本说明

EMR-3.3.0 版本说明

EMR-3.2.1 版本说明

EMR-3.1.1 版本说明

EMR-3.1.0版本说明

EMR-3.0.1版本说明

EMR-3.0.0版本说明

EMR 2.x版本

EMR-2.5.0 版本说明

EMR-2.4.0 版本说明

EMR-2.3.X 版本

EMR-2.3.2 版本说明

EMR-2.3.1 版本说明

EMR-2.3.0 版本说明

EMR-2.2.0 版本说明

EMR-2.1.1 版本说明

EMR-2.1.0版本说明

EMR-2.0.1版本说明

EMR-2.0.0版本说明

EMR 1.x版本

EMR 1.3.x版本

EMR 1.3.1版本说明

EMR 1.3.0版本说明

EMR 1.2.x版本

EMR 1.2.x版本中的应用程序版本

EMR 1.2.1版本说明

EMR 1.2.0版本说明

EMR 1.1.x版本

EMR 1.1.x版本中的应用程序版本

EMR 1.1.1版本说明

EMR 1.1.0版本说明

EMR 1.0.0版本说明

EMR on VKE

版本说明

EMR-3.16.0发布说明

EMR-3.15.0发布说明

EMR-3.14.0发布说明

EMR-VKE-1.8.0发布说明

EMR-VKE-1.7.0发布说明

EMR-VKE-1.6.0发布说明

EMR-VKE-1.5.0发布说明

EMR-VKE-1.4.0发布说明

产品计费

EMR on ECS

计费方式

按量付费转包年包月

退订和续费说明

EMR on VKE

EMR Serverless

标准计算资源

内存增强型 CPU 计算资源

计算增强型 CPU 计算资源

GPU 加速计算资源

续费和退订说明

欠费停服&恢复

快速入门

EMR on ECS 快速入门

创建并运行作业

DataLeap on EMR 快速入门

EMR on VKE 快速入门

EMR Serverless Spark 快速入门

创建资源队列

创建并提交作业

EMR Serverless Presto 快速入门

创建资源队列

创建并提交作业

EMR on ECS 操作指南

集群管理

支持ECS实例

集群配置

创建集群

创建集群概述

管理安全组

查看集群列表及详情

节点组管理

权限管理

角色与权限

EMR 服务角色

集群组件端口说明

配置中心

元数据连接

集群运维

常用文件路径

EMR 内置 MySQL 使用情况说明

集群监控

监控指标

节点 TopN 监控指标

HDFS 监控指标

Yarn 监控指标

Hive 监控指标

ZooKeeper 监控指标

HBase 监控指标

OpenSearch 监控指标

Doris 监控指标

StarRocks 监控指标

Impala 监控指标

Kudu 服务监控

ClickHouse 集群监控

Presto 监控指标

Trino 监控指标

Celeborn 监控指标

Kyuubi 监控指标

监控指标导出实践手册

集群事件中心

集群管理常见问题

服务管理

查看服务列表

添加/重启服务

管理服务配置参数

组件拓扑管理

EMR on VKE 操作指南

集群管理

创建虚拟集群

查看集群列表及详情

集群监控

Ray 服务指标

Celeborn 服务指标

Spark 服务指标

VolcanoScheduler 服务指标

服务管理

镜像管理

使用自定义 Docker 镜像运行作业

Ray 镜像列表

Spark 镜像列表

EMR Serverless 操作指南

EMR Serverless 队列

队列管理

计算组

Bolt 操作指导

Serverless Spark 作业开发指南

Spark SQL作业开发指南

Spark Jar作业开发指南

PySpark 作业开发指南

Serverless Hive 作业开发指南

Serverless Presto 作业开发指南

SQL专用资源预热能力

构建和使用自定义镜像

权限管理

自定义策略

EMR Serverless 实例（OLAP）

操作指南

权限管理

EMR Serverless OLAP服务关联角色

为 IAM 用户授权

使用现有 TOS 桶创建存算分离 Starrocks 实例

实例管理

查看实例列表与详情

实例状态表

版本升级说明

StarRocks存算分离集群配置建议

监控告警

用户日志服务采集全托管 OLAP 集群日志

表存储格式

表存储格式介绍

行存表实现原理

行存表使用指南

StarRocks行存表常见问题

StarRocks行存表数据接入

StarRocks行存表使用实践

StarRocks行列混存表

数据导入

Insert方式导入

数据湖查询(StarRocks)

Catalog

Default Catalog

External Catalog

外部表

读取Hadoop集群中的数据

更新元数据缓存

读取LAS数据

性能调优

SQL诊断使用说明

组件操作指南

Airflow

基础使用

常见问题和注意事项

Celeborn

Celeborn（仅适用于EMR on VKE形态）

Celeborn Master pod节点不允许移除

最佳实践

Celeborn超大分区使用参数说明

ClickHouse

Delta Lake

DolphinScheduler

最佳实践

DolphinScheduler 对接 TOS 最佳实践

DolphinScheduler 支持火山语音告警

Doris

高阶使用

最佳实践

Doris连接Tableau

Flink

Flink 基础使用

Flink SQL Client 使用参考

Flink 支持 protobuf 格式

HBase

高阶使用

HBase内存调优

HDFS

Hive

基础使用

Hive 基础操作

Hive 连接方式

确定 HiveServer2 地址

Hive3 使用注意事项

高阶使用

管理 LDAP 认证

Hive 作业调优

HiveServer2 负载均衡

Hive 支持中文字段名和中文分区

开发指南

自定义函数 (UDF)

最佳实践

Hive 访问 Hudi 数据

在EMR集群运行TPC-DS Benchmark

Hudi

Hue

最佳实践

通过hue进行数据查询

Hue 高可用访问集群内其他服务

Iceberg

基础使用

Iceberg 基础使用

Iceberg 基础使用（适用于EMR2.x版本）

高阶使用

Iceberg 参数配置

Spark流式读写 Iceberg

Spark流式读写 Iceberg（适用于EMR 2.x版本）

Spark批式读写Iceberg

Iceberg与Trino/Presto集成

Iceberg与Flink集成

Hive 中操作 Iceberg 数据

TOS 中操作 Iceberg 表

TOS 中操作 Iceberg 表（适用于 EMR 2.x 版本）

Impala

基础使用

Impala 基础操作

Impala 连接方式

Impala-shell 工具

高阶使用

管理 LDAP 认证

最佳实践

使用 Impala 访问 Kudu

Kafka

Kerberos

使用 Kerberos 认证集群

配置 Kerberos 集群间跨域互信

EMR 使用外部KDC

Knox

Kudu

基础使用

Kudu 基础操作

高阶使用

Impala 集成 Kudu

使用 Flume 同步数据到 Kudu

Kyuubi

Kyuubi 快速开始

Kyuubi 高级特性

Lance

操作指南

使用 Lance Python SDK 访问 TOS 上的 Lance 数据

使用 Lance 数据格式训练 CLIP 多模模型

使用 Ray 操作 Lance 数据

EMR Serveless Spark 与 Lance 集成

湖格式转换 Ray 读取 Webdataset 写入 Lance

最佳实践

Livy

MapReduce2

OpenLDAP

最佳实践

手动配置LDAP认证

Paimon

Phoenix

Presto

Presto（仅适用于Serverless形态）

JDBC 程序连接 Presto

Presto 对湖仓表使用说明

客户端工具连接 Presto

Proton

发行版本

Proton 发行版本

JobCommitter版本

基础使用

身份与权限配置

Hadoop 使用 Proton

Spark 使用 Proton

Flink 使用 Proton

Hive 使用 Proton

Impala 使用 Proton

DolphinScheduler 使用 Proton

快速上手

Proton 缓存模式

Proton 无缓存模式

高阶使用

Proton 确定缓存大小

Proton元数据同步

Distcp拷贝数据到TOS

Proton 参数配置

Proton按需缓存使用手册

Distcp从OSS拷贝数据到TOS

使用 FUSE 挂载 Proton

最佳实践

EMR 存算分离JobCommitter最佳实践

Proton SDK调优指南

Proton加速模式快速入门

PyProton

FSSpec介绍与使用

PyProton 介绍与使用文档

PyProton 使用最佳实践

在Python环境中使用FSSpec

在Ray Data中使用TOSFS

在Pytorch训练框架中使用FSSpec

Pulsar

Ranger

组件集成

高阶功能

Hive 数据脱敏

Ranger User Sync 集成LDAP

查看Ranger审计日志信息

配置DataLeap数据开发权限

Ray（仅适用于EMR on VKE 形态）

Ray快速入门

Ray on VKE产品介绍

使用 RayHistoryServer 查看历史作业

Ray vs Spark对比

Ray读取Webdataset写入lance

如何解决 Ray 集群的压力负载及内存溢出问题

RayJob 使用

RayJob快速入门

提交RayJob使用指导

通过Ray Dashboard查看任务情况

通过EMR监控RayJob

KubeRay RayJob提交使用指导

RayCluster 使用

RayCluster快速入门

提交Ray作业使用指导

使用Ray Dashboard监控作业

Ray访问TOS使用示例

使用Ray进行词频统计（WordCount)

Ray中Placement Group 使用指导

Ray GCS 使用指导

RayCluster 支持多 workergroup

RayCluster 挂载 PersistentVolumeClaim

RayData使用

AutoScale：使用AdaptiveStreamingExecutor

最佳实践

Ray任务运行在GPU上

Ray Dashboard开启metrics能力

使用 Volcano Scheduler 替换 K8S Default Scheduler 运行 Spark 及 Ray 作业

RayCluster开启Autoscaler

Ray 接入日志服务TLS

将传统的 Python 程序改造为 Ray 程序的实践指南

Ray Data 在 LLM 数据预处理的最佳实践

Ray Data背压增强分析

Ray 在多模态图片处理的架构实践

基于 Ray Serve 构建模型在线推理服务

Ray（仅适用于 EMR Serverless 形态）

Serverless Ray参数说明

最佳实践

基于 EMR Serverless Ray 的音频数据预处理

Spark

基础使用

PySpark 基础使用

Spark RDD 基础使用

最佳实践

Spark on GPU 最佳实践

Ksana for SparkSQL

MaxCompute Buildin Function Plugin

Spark 调优指南

Spark（仅适用于EMR on VKE形态）

使用 kubectl管理作业

新建 HiveMetaStore 集群并运行 SparkSQL 作业

Spark 集群手动关联 RSS 集群

Spark（仅适用于EMR Serverless Spark形态）

Spark Native使用说明

Serverless Spark读写StarRocks(存算分离)操作手册

Serverless Spark 读写 Serverless Doris 操作手册

Spark 对湖仓表使用说明

Spark 小文件合并

最佳实践

Dataleap联合开通及使用

Spark开启动态伸缩功能时的最佳实践

Sqoop

StarRocks

规划 StarRocks 集群

运维管理

StarRocksUI使用

StarRocks参数配置

使用CLB实现负载均衡

用户和权限管理

StarRocks引擎指标观测说明

高阶使用

StarRocks 分区表使用

StarRocks 访问 TOS

StarRocks Spark Connector

StarRocks Flink Connector

数据湖分析

Catalog

Default Catalog

External Catalog

最佳实践

StarRocks高可用最佳实践

使用Serveless Flink实现MySQL到StarRocks数据集成

使用智能数据洞察对StarRocks数据进行分析

StarRocks集群资源规划

StarRocks表模型设计

使用DataSail实现MySQL到StarRocks数据集成

Starrocks跨大版本升级

TensorFlow

Tez

Trino

YARN

基础使用

Yarn Fair Scheduler配置

YARN 增强功能

YARN 队列管理

最佳实践

配置用户组队列映射

ZooKeeper

最佳实践

EMR on ECS 最佳实践

数据集成最佳实践

基于 StarRocks 的准实时数据分析

EMR Flink 数据写入 Bytehouse

火山引擎 EMR 迁移指南

迁移指南说明

成本评估优化

元数据迁移

迁移作业至火山引擎 EMR

DataLeap Shell 结合 EMR 系列实践

Shell 执行 EMR Doris SQL 任务

Shell 触发 Airflow 工作流执行

EMR 集群客户端最佳实践

在自定义DNS的VPC下创建EMR集群

EMR本地盘实例故障运维

弹性伸缩最佳实践

在Docker中使用EMR CLI

EMR on VKE最佳实践

使用PriorityClass调度大作业避免资源碎片

使用弹性容器实例（VCI）调度作业

EMR Serverless最佳实践

EMR Serverless 队列最佳实践

Serverless Ray 开发指南

Serverless PySpark 开发指南

EMR Serverless 访问 VPC 实践指南

EMR Serverless Zeppelin 最佳实践

EMR Serverless Jupyter Notebook 最佳实践

EMR Serverless 实例最佳实践

存算分离最佳实践

Serverless StarRocks TPC-H 基准测试说明

Serverless StarRocks表模型设计

Serverless StarRocks集群资源规划

使用Serveless Flink实现MySQL到StarRocks数据集成

Serverless StarRocks使用火山引擎智能数据洞察进行分析

Serverless StarRocks高可用最佳实践

StarRocks实例备份与恢复最佳实践

OLAP数据灾备最佳实践

StarRocks Multi-Warehouse（多仓）最佳实践

Promethus 配置全托 Olap 集群方案

开发参考

API 参考

EMR on ECS API参考

使用前必读

调用方法

公共错误码

集群管理

UpdateClusterAttribute - 更新集群属性

ReleaseCluster - 释放或退订集群

ListClusters - 集群列表

GetCluster - 获取集群

CreateCluster - 创建集群

操作管理

ListOperations - 操作列表

订单管理

ListOrders - 订单列表

节点组管理

ScaleOutNodeGroup - 扩容节点组

CreateNodeGroup - 创建节点组

UpdateNodeGroupChargeType - 更新节点组付费类型

ScaleInNodeGroup - 缩容节点组

UpdateNodeGroupEcsSpec - 更新节点组ECS规格

ScaleUpNodeGroupDisk - 扩容节点组磁盘

ListNodeGroups - 节点组列表

DeleteNodeGroup - 删除节点组

UpdateNodeGroupAttribute - 更新节点组属性

ListNodes - 节点列表

用户管理

GetClusterUsers - 获取EMR管控用户详情

UpdateClusterUserPassword - 更新集群用户密码

ListClusterUsers - 获取集群用户列表

DeleteClusterUser - 删除集群用户

UpdateClusterUser - 修改已创建用户信息

CheckUserCredentials - 校验集群用户

CreateClusterUser - 创建集群用户

用户组管理

GetClusterUserGroups - 集群用户组详情

ListClusterUserGroups - 获取集群用户组列表

CreateClusterUserGroup - 创建集群用户组

DeleteClusterUserGroup - 删除集群用户组

UpdateClusterUserGroup - 更新集群用户组

应用管理

ListApplicationConfigs - 配置项列表

GetApplicationConfigFile - 获取集群配置文件信息

RunApplicationAction - 执行应用操作

ListApplicationConfigFiles - 集群配置文件列表

UpdateApplicationConfig - 更新配置项

ListApplicationConfigHistories - 配置项修改历史列表

GetApplicationPacket - 获取应用安装包信息

ListApplications - 集群列表

ListComponentInstances - 组件实例列表

ListComponents - 组件列表

API 版本说明

EMR on VKE API参考

使用前必读

集群管理

CreateVirtualCluster - 创建集群

GetVirtualCluster - 查看集群详情

DeleteVirtualCluster - 删除集群

ListVirtualClusters - 集群列表

操作管理

GetOperation - 查看操作日志信息

应用管理

UndeployApplications - 卸载应用

DeployApplications - 部署应用

RunApplicationAction - 运行应用Action

ListApplications - 应用列表

作业管理

ListJobInstances - 作业实例列表

GetJobInstance - 作业实例详情

ListJobDefinitions - 作业定义列表

GetJobDefinition - 作业定义详情

CreateJobDefinition - 创建作业定义

UpdateJobDefinition - 修改作业定义

DeleteJobDefinition - 删除作业定义

RunJobDefinition - 执行作业

KillJobInstance - 停止作业实例

EMR Serverless API参考

SDK 参考

EMR on ECS SDK 参考

EMR Serverless SDK 参考

Spark-submit 工具使用说明

Python Query SDK

常见问题

EMR on ECS常见问题

EMR Serverless Spark常见问题

技术服务与支持

大数据专家服务计费说明

相关协议

数据中台产品和服务专用条款

E-MapReduce服务等级协议

EMR Serverless 服务等级协议

文档首页

/

E-MapReduce

最近更新时间：首次发布时间：

有用

有用

无用

无用

文档反馈