灾备是在系统出现异常时,能够及时恢复业务并保证数据不丢失。国标GB/T 20988—2007对于信息系统灾难恢复能力等级与恢复时间目标(RTO)和恢复点目标(RPO)定义如下。
灾难恢复能力等级 | RTO | RPO |
---|---|---|
1 | 2天以上 | 1天至7天 |
2 | 24小时以上 | 1天至7天 |
3 | 12小时以上 | 数小时至1天 |
4 | 数小时至2天 | 数小时至1天 |
5 | 数分钟至2天 | 0至30分钟 |
6 | 数分钟 | 0 |
在同region和异地region建设同规格EMR集群,实现两地三中心建设。灾备集群建设有双写和复制两种方式,本章节对这两种建设方案进行介绍。
通过数据双写方式实现灾备集群建设。每条链路相对独立,可主动探测集群可用性,并实现业务链路切换。最高能实现秒级RTO和0 RPO。
通过Doris CCR(Cross Cluster Replication) 进行数据跨集群拷贝。需要构建整体切换预案,当出现异常时能及时进行业务切换。一般能实现分钟级RTO和RPO。
Doris CCR:https://doris.apache.org/zh-CN/docs/admin-manual/data-admin/ccr
SR cluster-sync:https://docs.starrocks.io/zh/docs/administration/data_migration_tool/
数据定期冷备至tos,出现异常时创建新集群,并做数据恢复。创建集群耗时一般在5min左右,数据恢复耗时跟实际需恢复业务量有关。整体来看能满足1-4级RTO和RPO要求。
利用磁盘快照,定时对磁盘进行快照,出现灾难级异常时能避免数据不丢失。
详细操作参考:快照操作指引。