OLAP数据灾备最佳实践--E-MapReduce-火山引擎

文档中心

导航

OLAP数据灾备最佳实践

最近更新时间：2025.01.21 11:12:41首次发布时间：2025.01.21 11:12:41

灾备概述

灾备是在系统出现异常时，能够及时恢复业务并保证数据不丢失。国标GB/T 20988—2007对于信息系统灾难恢复能力等级与恢复时间目标(RTO)和恢复点目标(RPO)定义如下。

在同region和异地region建设同规格EMR集群，实现两地三中心建设。灾备集群建设有双写和复制两种方式，本章节对这两种建设方案进行介绍。

通过数据双写方式实现灾备集群建设。每条链路相对独立，可主动探测集群可用性，并实现业务链路切换。最高能实现秒级RTO和0 RPO。

通过Doris CCR(Cross Cluster Replication) 进行数据跨集群拷贝。需要构建整体切换预案，当出现异常时能及时进行业务切换。一般能实现分钟级RTO和RPO。
Doris CCR：https://doris.apache.org/zh-CN/docs/admin-manual/data-admin/ccr
SR cluster-sync：https://docs.starrocks.io/zh/docs/administration/data_migration_tool/

数据定期冷备至tos，出现异常时创建新集群，并做数据恢复。创建集群耗时一般在5min左右，数据恢复耗时跟实际需恢复业务量有关。整体来看能满足1-4级RTO和RPO要求。

利用磁盘快照，定时对磁盘进行快照，出现灾难级异常时能避免数据不丢失。
详细操作参考：快照操作指引。