如果你的公司拥有一个或多个数据中心,你必须确保在正常运行受到威胁的情况下,它们是有足够的恢复能力的。
当今的数据中心常被安置在以下地点,比如:经过重建的仓库里;办公楼宇的地板上;具备防御地震、飓风、龙卷风及其他灾害性天气的坚固的建筑物中等等。
尽管以上任何一个选址地点都可以用于建立数据中心,但是你必须确保该建筑能有效地规避对你的数据中心有潜在威胁的因素。本文就将针对如何使您的数据中心变得更有回弹力和恢复力这个问题,给出若干建议。
在数据中心恢复力评估开始之前,请完成以下几项:
1. 确定你的数据中心物理上是否安置于低度或中度风险的地区,比如:不太可能发生自然灾害(地震、灾难性天气)的地方;连入两个或多个电网做冗余设计;坐落于地势高的地方以减少洪水袭击的可能;远离主干高速公路、铁路或河流。
2. 如果你的数据中心所处的位置不能满足以上条件,它就可能有较大的危险,因此请继续完成以下风险评估:
· 找出可能使得数据中心缺乏恢复力及生存力的潜在原因
· 找出并分析那些会对数据中心正常运行造成威胁的因素,比如:自然灾害;人为灾害(盗窃、蓄意破坏、安全侵入、环境危害如化学泄露等)
· 列出那些现有的控制措施(管理上的、运营上的和技术上的)来解决这些问题
以下表格更深入地分析了这些问题,并提出了针对每一项的解决之道。
表格1:管理、运营及技术控制
控制要解决的问题解决的方法
风险评估最近做过有关于风险和威胁的评估么?
· 安排并完成年度的风险/威胁评估,以检查内在以及外部的威胁
· 根据风险评测结果更新数据中心应急方案
保险有没有启用保险的方式来应对数据中心遭到破坏的可能?· 回顾检查数据中心的保险覆盖情况
· 根据需要更新保险覆盖面
服务等级协议· 有没有与供应商签订服务等级协议?
· 最后一次回顾和更新服务等级协议是在什么时候?· 确保服务等级协议是恰当的
· 确保服务等级协议能在系统或服务遭受灾难时是起作用的
现场安全· 是否有一套现场安全计划方案?
· 现场安全系统对于数据中心是否合适?· 准备一个现场安全计划并且每年至少测试一次
· 确保安全系统(比如,闭路摄像头,访问控制系统)要定期测试
文档· 所有的数据中心运营流程都有文档记录么?
· 紧急情况处理流程有文档记录么?· 确保数据中心运行的规章路程都有文档记录并且做到每年回顾
· 确保数据中心紧急处理流程有文档记录并且每年回顾
软硬件备份· 关键的硬件设备(如服务器)有备份么?
· 数据存储系统(包括SANs)有备份么?
· 关键应用的备份能成功恢复出来么?
· 有备份的网络设备么,比如路由器,交换机,网关等· 确保有备份系统及其组件
· 把备份存放在安全的有采暖通风系统的地方
· 保持备份记录的实时更新
应急流程· 有没有事件发生时对应的处理流程?
· 有没有疏散撤离的流程?
· 有没有非法进入的对应流程?
· 有没有针对恐怖袭击或类似事件的处理流程?
· 有没有针对盗窃或蓄意破坏的处理流程?
· 有没有针对枪击事件的对应流程?
· 有没有技术上的灾难恢复的预案?· 确保针对各种可能威胁数据中心的事件有相应的恰当的处理流程
· 确保所有的流程都有文档记录在案
· 确保所有的流程都会经过定期测试
灾备的数据中心方案· 如果无法访问数据中心怎么办?
· 如果数据中心无法正常工作怎么办?· 建立一套数据中心的恢复方案
· 找到有可能为数据中心提供备份服务的公司的其它场地
· 如果另建一个灾备数据中心的构想无法实现,考虑使用第三方或云平台上的数据中心方案
表格2:自然威胁
威胁要解决的问题解决的方法
地震数据中心能抵挡地震引起的震动或地表运动么?· 确保建筑物对于地震有足够的应对能力
· 确保员工在需要时能安全撤离
· 确保建立了应急流程并经过了地震测试
洪水洪水来临时,数据中心能被转移或抵御洪水袭击么?· 为洪水准备沙袋
· 确保有排水泵
· 确保员工可以安全撤离
· 确保建立了应急流程并经过了洪水测试
闪电数据中心能够抵挡闪电的侵袭么?· 定期检查闪电保护系统的状况
· 确保在临界电力馈电情况下,过载保护系统能正常工作
· 测试建筑物的接地情况
暴风雨和龙卷风数据中心能抵御大风及飞行碎屑么?· 确认建筑物对大风的影响有所准备
· 确保员工在必要时能安全撤离
· 确保应急流程是完备的并且经过大风测试
服务器过冷/过热空调系统能使数据中心维持在能正常运行的环境肿么?· 确保空调系统经过恰当的维护和定期测试(+微信关注网络世界),比如每月测试一次
表格3:人为以及安全威胁
威胁要解决的问题解决问题的方法
内乱、恐怖袭击、蓄意破坏、非法入侵· 数据中心在面对非法入侵时是否安全?
· 员工在这些情况下能否安全撤离?· 确保建筑物的安保系统是正常工作的
· 确保员工在必要时能安全撤离
· 确保应急流程完备并经过建筑物安保测试
· 确保已经流程完备并经过内乱或其他相关事件的测试
· 确保在建筑物入口处有安保人员
· 确保安保摄像头能记录下建筑物内部外部所发生的情况
表格4:环境威胁
威胁要解决的问题解决问题的方法
断电· 商用电力断电
· 电力保护系统,比如,电涌抑制器
· 备用的电力系统
· 柴油机的燃油供给或天然气发电机· 与当地电力公司共同讨论电力供给的方案
· 在整个数据中心的范围内连接电力保护设备来保护系统
· 确保断电时会触发警报
· 购买备用电力系统,比如,发电机和UPS设备
· 定期测试备用电力系统
· 定期充满燃料箱;至少要有两台供应设备
通信失败· 内网连接失败
· 英特网连接失败· 确保本地连接服务来自于安全的管道
· 考虑为数据中心增加冗余的供给
· 确保英特网连接是受保护并且有冗余设计
· 定期测试网络服务以保证可用性
空调采风系统故障空调,加热,空气过滤系统无法运行· 确保空调采风系统是正常运行的并且经过定期测试
· 确保备用针对空调的电力系统存在
· 考虑增加冗余的空调采风系统
· 确保空调采风系统故障会触发警报
火灾数据中心能对内部和外部的火灾作出正确响应么?· 确保灭火系统是正常工作并经过定期测试的
· 安装“切断开关”来制止意外的系统放电
· 确保有足够数量的灭火器
· 确保员工在必要时能安全撤离
· 确保应急流程完备并经过火灾测试
水质问题,比如水污染· 有没有监控水质的流程?
· 有没有水过滤系统?
· 内部管道是否原理关键系统以防止对水质造成影响?
· 有没有其它水源和供给?· 与建筑物的所有者共同协商主要水源供给的监控问题以及应急流程
· 与建筑物所有者共同协商备用水源
危险物品· 有没有分析危险物质的流程?
· 有没有应急流程来应对发现危险物品的情形?· 与当地环境管理部门商议应对危险物品的流程
· 建立应急流程
总结
综上可见,当我们在试图构建数据中心的恢复力时,有许多问题需要解决。不论你是建造一个新的数据中心,迁移至另一个数据中心还是更新一个业已存在的设施,都要确保在整个建筑物的设计和/或增建的过程中考虑并解决这些问题,以保护你对于数据中心的投资不受损失。