You need to enable JavaScript to run this app.
导航
OLAP数据灾备最佳实践
最近更新时间:2025.01.21 11:12:41首次发布时间:2025.01.21 11:12:41

灾备概述

灾备是在系统出现异常时,能够及时恢复业务并保证数据不丢失。国标GB/T 20988—2007对于信息系统灾难恢复能力等级与恢复时间目标(RTO)和恢复点目标(RPO)定义如下。

灾难恢复能力等级

RTO

RPO

1

2天以上

1天至7天

2

24小时以上

1天至7天

3

12小时以上

数小时至1天

4

数小时至2天

数小时至1天

5

数分钟至2天

0至30分钟

6

数分钟

0

双活集群方案(可满足5、6级灾难恢复等级)

在同region和异地region建设同规格EMR集群,实现两地三中心建设。灾备集群建设有双写复制两种方式,本章节对这两种建设方案进行介绍。

  • 双写逻辑(实时性高,且能快速切换)(推荐)

通过数据双写方式实现灾备集群建设。每条链路相对独立,可主动探测集群可用性,并实现业务链路切换。最高能实现秒级RTO和0 RPO。
Image

  • 复制逻辑(复制有延迟,需要具备切换预案)

通过Doris CCR(Cross Cluster Replication) 进行数据跨集群拷贝。需要构建整体切换预案,当出现异常时能及时进行业务切换。一般能实现分钟级RTO和RPO。
Doris CCR:https://doris.apache.org/zh-CN/docs/admin-manual/data-admin/ccr
SR cluster-sync:https://docs.starrocks.io/zh/docs/administration/data_migration_tool/

数据灾备方案(可满足1-4级灾难恢复等级)

数据定期冷备至tos,出现异常时创建新集群,并做数据恢复。创建集群耗时一般在5min左右,数据恢复耗时跟实际需恢复业务量有关。整体来看能满足1-4级RTO和RPO要求。

前置缓存(容灾能力和前置缓存数据量相关)

数据快照(离线可行,实时数据会由于compact导致数据无法恢复)

利用磁盘快照,定时对磁盘进行快照,出现灾难级异常时能避免数据不丢失。
详细操作参考:快照操作指引