基于 MySQL 多通道主主复制的机房容灾方案
背景介绍
在云网融合大数据时代,数据已经成为重要的生产要素。特别是棱镜门、永恒之蓝、汶川大地震这类造成大规模数据丢失和泄漏的人为或自然灾害事件发生后,中国相继出台了一系列的法律法规,对各组织机构的数据安全保护条件进行限定,如 2016 年颁布的《中华人民共和国网络安全法》、 2021 年全国人民代表大会通过的《数据安全法》等。
当发生灾难时,容灾备份能够确保数据不丢失。要实现应用的容灾,一个关键就是通过数据库的实时同步和复制,在 A 地出现机房故障和问题的时候可以平滑快速的迁移到 B 地。虽然这种远程数据复制和同步存在一定的延迟,但是基本可以满足业务连续性的需求。
容灾的基础概述
容灾的定义
容灾是指当数据中心发生各种未知灾难的时候,确保数据不丢失或少丢失,同时 IT 业务系统能够不间断运行或快速切换恢复。
灾难的衡量指标
评估一个灾备系统可靠性的两个重要指标是 RTO 与 RPO。
RTO (Recovery Time Objective) 恢复时间目标。RTO 是指灾难发生后,从系统宕机导致业务停顿之刻开始,到系统恢复至可以支持业务部门运作,业务恢复运营之时,此两点之间的时间。RTO 可简单地描述为企业能容忍的恢复时间。
RPO (Recovery Point Objective) 恢复点目标。RPO 是指灾难发生后,容灾系统能把数据恢复到灾难发生前时间点的数据,它是衡量企业在灾难发生后会丢失多少生产数据的指标。RPO可简单地描述为企业能容忍的最大数据丢失量。
RTO 针对的是服务时间的丢失,RPO 针对的是数据的丢失,两者是衡量容灾系统的两个主要指标,但它们没有必然的关联性。
容灾的等级分类
2007 年 11 月 1 日开始正式实施的国家标准 (GB/T 20988-2007) 是我国灾难备份与恢复行业的第一个国家标准。
等级 | 说明 |
---|---|
第 1 级 | 基本级。备份介质场外存,安全保障、 定期验证。 |
第 2 级 | 备份场地支持。网络和业务处理系统可在预定时间内调配到备份中心。 |
第 3 级 | 电子传输和部分设备支持。灾备中心配备部分业务处理和网络设备,具备部分通讯链路。 |
第 4 级 | 电子传输和完整设备支持。数据定时批量传送,网络/系统始终就绪。温备中心模式。 |
第 5 级 | 实时数据传输及完整设备支持。采用远程复制技术,实现数据实时复制,网络具备自动或集中切换能力,业务处理系统就绪或运行中。 |
第 6 级 | 数据零丢失和远程集群支持。数据实时备份,零丢失,系统 /应用远程集群,可自动切换,用户同时接入主备中心。 |
灾难与 RTO、RPO 的关系
灾难恢复能力等级 | RTO | RPO |
---|---|---|
1 | 2 天以上 | 1 天至 7 天 |
2 | 24 小时以后 | 1 天至 7 天 |
3 | 12 小时以上 | 数小时至 1 小时 |
4 | 数小时至 2 天 | 数小时至 1 小时 |
5 | 数分钟至 2 天 | 0 至 30 分钟 |
6 | 数分钟 | 0 |
两地三中心容灾
两地三中心能够组合本地高可用,同城灾备中心,异地灾备中心,提高可用性,提升业务连续性,重点业务多采用“两地三中心”(即生产数据中心、同城灾备中心、异地灾备中心)建设方案。这种模式下,多个数据中心是主备关系,针对灾难的响应与切换周期根据异常情况灵活处理,能够实现更优的 RTO 与 RPO 整体目标。