上周,微软数据中心园区的员工人数不足,当时电力中断导致其两个数据大厅的冷却器工厂离线,烧毁了部分存储硬件。
微软发布了大规模故障的初步事故后报告(PIR),其中包括昆士兰银行和捷星航空在内的大型企业客户完全失去了服务。
PIR揭示了一些企业完全失去服务的原因:在这起事件中,众多的存储节点被关闭,或者组件被炸坏,以至于数据及其所有副本都处于离线状态。
此外,在存储节点最终恢复后,托管超过250000个数据库的“租户环”出现故障。
冷却器离线
微软表示,有两个数据大厅的冷却能力受到影响,包括七台冷却器,其中五台正在运行,两台处于备用状态(N+2)。
因电力中断、电压中断,导致五台正在运行的冷水机组出现故障。此外,只有一个备用单位工作。
微软表示,现场工作人员执行了我们记录在案的紧急操作程序(EOP),试图使冷却器恢复在线,但没有成功。
因现场没有足够的员工,其应急程序也没有及时恢复。
该公司表示:“由于数据中心园区的规模,团队在夜间的人员配备不足以及时重启冷却器。”
“我们暂时将团队规模从3人增加到7人,直到更好地了解潜在问题并采取适当的缓解措施。”
关于EOP,微软表示:“对于爆炸半径如此之大的事件,重新启动冷却器的EOP执行缓慢。”
“我们正在探索改进现有自动化的方法,以便对各种电压暂降事件类型更有弹性。”虽然没有足够的员工来执行记录在案的程序,但有更多的员工会更快地得到同样的结果,因为冷却器本身也有问题。初步调查显示,冷水机组没有自动重启,因为相应的泵没有从冷水机组获得运行信号。
微软表示:“这一点很重要,因为它是冷水机组成功重启不可或缺的一部分。我们正在与OEM供应商合作,调查为什么冷却器没有命令各自的泵启动。”
微软表示,由于冷冻水回路温度已超过阈值,出现故障的冷水机组无法手动重启。随着气温的升高和基础设施发出的高温警告,微软别无选择,只能关闭服务器。
该公司表示:“这成功地使冷冻水回路温度降至所需阈值以下,并使冷却能力得以恢复。”
存储、SQL数据库恢复
尽管如此,并非一切都顺利恢复。该事件影响了七名存储租户,其中五名为普通客户,两名为高级客户。
微软表示,一些存储硬件被数据大厅的温度损坏。由于存储节点处于脱机状态,诊断程序无法进行故障排除。
微软表示:“因此,我们的现场数据中心团队需要手动移除组件,并逐一重新安置,以确定哪些特定组件阻止每个节点启动。为了成功恢复数据和恢复受影响的节点,需要更换几个组件。并且为完全恢复数据,一些原始/故障组件需要临时重新安装在各个服务器中。”
作为代码自动化的基础架构也失败了,错误地批准了过时的请求,并将一些正常的节点标记为不正常,这减缓了存储恢复工作。
该公司表示:“当我们试图将数据库迁移出降级环时,SQL手头没有经过良好测试的工具,这些工具是在源环处于健康状况降级的情况下移动数据库的。”
最后的PIR预计将在几周内完成。