你有没有想过一个问题:如果明天早上你的公司服务器全挂了,业务能恢复吗?能在多久之内恢复?很多人跟我说,他们有备份。但再追问下去,备份在哪、多久做一次、恢复过没有,大多数人的回答就支支吾吾了。数据备份和灾难恢复这件事,看起来简单,做好很难。今天我来系统讲讲怎么做才是真的靠谱。

先纠正一个很常见的误解:备份不等于容灾,容灾不等于高可用。很多人把这三个概念混在一起,但它们的含义和安全级别完全不同。备份就是把数据复制一份存到别的地方,主要应对数据误删和损坏。容灾是在备份的基础上,还准备了可以接管的计算和网络资源,应对机房级的故障。高可用则是系统在设计上就没有单点故障,某个组件出问题可以自动切换,用户几乎无感。对大多数企业来说,先把备份这件事做好,就已经能应对绝大部分数据灾难场景了。

备份策略怎么定?目前业界公认的比较成熟的方案是三二一备份原则。就是至少保留三份数据副本,使用两种不同的存储介质,其中至少一份存放在异地的位置。具体的做法是这样的:第一份是生产环境中的在线数据,这是正在使用的。第二份是本地备份,放在你同一栋楼或园区的备份服务器或存储设备上,遇到单个文件误删、硬盘损坏这种情况,可以从本地备份快速恢复。第三份是异地备份,放在不同城市或者云端,应对火灾、水灾、电力事故等整个机房不可用的情况。三份数据不是一模一样的,第三份异地备份的恢复速度可能慢一些,但关键时刻可以救命。

备份频率怎么定?这取决于你的数据变化速度和业务容忍度。核心业务系统建议每天做一次全量备份,每几个小时做一次增量备份。文件服务器可以每周做一次全量,每天做一次增量。数据库建议每十五到三十分钟做一次事务日志备份。具体频率需要根据你的企业数据量和恢复时间目标来平衡。假设你的业务恢复时间目标是四小时,那你的备份和恢复方案就需要支撑在四小时内把业务跑起来。如果业务恢复时间目标是二十四小时,选择面就更宽一些。

备份介质怎么选?现在主流的备份介质有磁盘阵列、磁带库、云存储等。磁盘阵列速度快、管理方便,是本地备份的主流选择。磁带库虽然速度慢、操作繁琐,但存储成本低、寿命长、不受勒索软件影响,在很多金融机构中仍然是长期归档的核心选项。云存储弹性好、按需付费、天然异地,很适合做异地备份目标。我建议本地备份用磁盘阵列兼顾性能和成本,异地备份用云存储实现自动化。

备份数据的加密和安全也要重视。备份数据本身也包含敏感信息,如果备份存储被入侵,数据同样存在泄露风险。建议对备份数据做加密存储,传输过程中使用加密协议。备份存储的访问权限要严格控制,只有负责备份运维的工作人员可以操作。备份数据的管理账号也要启用多因素认证。

说完备份,再说灾难恢复计划。灾难恢复计划是一份指导文件,告诉你在灾难发生后按什么步骤、由谁负责、在多长时间内恢复哪些业务。这份计划不能写了就放着吃灰,必须定期测试和更新。

灾难恢复计划应该包含哪些内容呢?第一是联系人清单,包括恢复团队每个成员的联系方式、第二和第三联系人、供应商联系方式。第二是系统清单,列出所有需要恢复的业务系统以及它们的依赖关系,先恢复什么后恢复什么要有明确的优先级。第三是恢复步骤,每个系统的具体恢复操作步骤,详细到每一个命令、每一个配置项。第四是测试方案,怎么验证恢复后的系统功能正常。第五是沟通方案,内部怎么通知、外部怎么跟客户和合作伙伴解释。

灾难恢复演练应该定期做。很多企业花了很多钱做备份建容灾,但从来没有实际演练过恢复流程,到了真正需要用的时候才发现各种问题。有的备份文件损坏了恢复不了、有的恢复步骤写得不够详细找不到人操作、有的当前环境跟编写计划时已经完全不同了。建议每半年做一次桌面推演,每年做一次实战演练。实战演练可以从小到大,先恢复一个非关键系统,再逐步扩展到核心系统。每次演练后都要总结改进,把发现的问题写进计划里更新。

备份策略和灾难恢复计划也需要随着业务变化而调整。业务系统增加了新的模块、数据量大幅增长、更换了存储设备或者迁移到了云上,每一次重大的IT基础设施变化,都需要重新评估备份策略是否适用、灾难恢复计划是否仍然有效。

我经常跟企业朋友说一个道理:备份和灾难恢复不是IT部门自己的事,而是整个公司的事。因为没有备好的后果是整个公司一起承担的。花点时间把备份做好,把灾难恢复计划写清楚并演练到位,这笔投入跟数据丢失后的损失比起来,实在不算什么。

Q: 数据备份应该保留多长时间的版本? A: 根据业务需要和数据保护法规来定。常规数据保留三十到九十天的版本即可,核心数据可以考虑保留一年以上。财务、人事等合规要求高的数据,需要按照行业法规确定保留期限。

Q: 上云之后还需要自己做备份吗? A: 需要。云服务商虽然会做底层基础设施的冗余和备份,但不保证覆盖你的业务数据。你仍然需要自己制定备份策略,把云上的数据备份到其他区域或者另一个云平台。

Q: 预算有限的中小企业怎么做备份? A: 可以采用本地NAS加云存储的组合方案。本地NAS做日常快速恢复的备份目标,云存储做异地备份。现在很多云服务商提供自动同步到云端的功能,管理起来也很方便。还可以考虑使用开源备份软件来降低软件成本。