在您使用及维护 EMR 集群时,一些非预期的操作可能会导致集群不可用或不稳定,您在控制台执行部分操作前会有相应的风险提示,本文为您列举了一些禁止及高危操作:
禁止操作
组件 | 高危操作 | 建议 |
---|---|---|
HDFS | 使用RouterBasedFederation代理转发RPC性能下降 | RouterBasedFederation有RPC性能下降的问题,如需使用建议通过 提工单 的方式,联系火山引擎技术支持人员 |
使用EC 实现存储降本 | 不建议使用,如有存储降本需求,可以将冷数据通过distcp转存到对象存储 | |
使用Symlink创建软连接 | 不建议使用 | |
在数据迁移之外的场景使用snapshot | 不建议使用 | |
使用本地journal | 不建议使用,可使用Quorum Journal Manager | |
使用single模式部署 | 不建议使用,可使用HA模式部署 | |
使用S3A访问对象存储 | 不建议使用,可使用Proton SDK模式 | |
使用Provided Storage | 不建议使用,如需使用建议通过 提工单 的方式,联系火山引擎技术支持人员 | |
使用本地盘存储NameNode和JournalNode的image & edits | 不建议使用,可使用EBS云盘 | |
使用hdfs namenode stale read | 不建议使用,可使用直读active的模式 | |
使用AvailableSpaceRackFaultTolerantBlockPlacementPolicy、AvailableSpaceBlockPlacementPolicy | 不建议使用,可使用默认的BlockPlacementPolicyDefault | |
Hive 3.x | 使用Casting timestamps函数获取时间戳 | 建议使用 |
开启Hive SQL向量化模式 | 不建议使用 | |
使用 Hive on Spark或Hive on MR | 建议使用 Hive on Tez | |
开启事务,创建事务表 | 不建议使用 | |
开启 hive.optimize.join.reduce.deduplication参数 | 不建议开启该参数 | |
开启 hive.auto.convert.sortmerge.join.reduce.side参数 | 不建议开启该参数 | |
1.x 版本升级到 3.x 版本,且表的 bucketing_version 不是 2 | 建议修改元数据,将所有表 bucketing_version 修改为 2 | |
Union all 子句中存在 lateral view | 不建议使用 | |
Spark 3.5.x | Structured Streaming,watermark和time-interval的双流join可能导致不符合预期的状态清理,尽量避免这种用法 | 不建议使用 |
在如下场景使用Spark Connect:
| 不建议使用 | |
Flink 1.16.x | 开启Queryable state特性 | 不建议使用该特性 |
开启State Changelog特性 | 不建议使用该特性 | |
将TM network blocking shuffle type配置为:mmap | 建议配置为file | |
将TM network 压缩编码配置为:LZO与ZSTD | 建议配置为LZ4 | |
Flink on YARN 使用:Per-Job Mode | 建议使用application mode替代 | |
使用DataSet API及相关的connectors | 建议使用 Table API 和 SQL,以便在完全统一的 API 中运行高效的批处理管道,或使用具有 BATCH 执行模式的 DataStream API | |
Kyuubi | 使用如下协议通过Kyuubi来访问后端引擎:
| 不建议使用 |
使用由如下语言编写的代码通过Kyuubi提交给后端引擎:
| 不建议使用 | |
Doris 2.x | 部分列更新导致crash | 2.0.2及以下不建议使用 |
数据均衡不生效 | 2.0.2及以下不建议使用 | |
高并发查询、写入以及schema change等操作导致集群资源过载 | 不建议执行超出集群资源能力的负载,会导致集群不稳定。增加负载时需进行压测 | |
Doris 1.X | 连续执行add column操作 | 不建议对同一个表连续执行add column操作 |
StarRocks | 使用MATERIALIZED VIEWS | 3.2.x 及以下版本不建议使用 |
主键表的迁移与compaction | 3.2.x 及以下版本不建议使用 | |
使用spill功能 | 3.2.x 及以下版本不建议使用 | |
并发场景下bitmap使用与str_to_map 函数使用 | 3.2.x 及以下版本不建议使用 | |
存算分离表delete 分区过多 | 3.1.x 及以下版本不建议使用存算分离,建议在3.2.x及以上版本使用该功能 | |
高并发查询、写入以及schema change等操作导致集群资源过载 | 不建议执行超出集群资源能力的负载,会导致集群不稳定。增加负载时需进行压测 | |
Presto | 使用 Presto on Velox 模式 | 不建议使用 Presto on Velox 模式,部分算子不支持 |
执行大型 ETL 作业 | 不建议执行大型 ETL 作业,会影响集群稳定性 |