微软数据中心园区出现故障导致部分存储硬件被烧毁现发布事故报告

来源：网界网 | 2023-09-04 11:52:21

　　上周，微软数据中心园区的员工人数不足，当时电力中断导致其两个数据大厅的冷却器工厂离线，烧毁了部分存储硬件。

　　微软发布了大规模故障的初步事故后报告（PIR），其中包括昆士兰银行和捷星航空在内的大型企业客户完全失去了服务。

　　PIR揭示了一些企业完全失去服务的原因：在这起事件中，众多的存储节点被关闭，或者组件被炸坏，以至于数据及其所有副本都处于离线状态。

　　此外，在存储节点最终恢复后，托管超过250000个数据库的“租户环”出现故障。

　　冷却器离线

　　微软表示，有两个数据大厅的冷却能力受到影响，包括七台冷却器，其中五台正在运行，两台处于备用状态（N+2）。

　　因电力中断、电压中断，导致五台正在运行的冷水机组出现故障。此外，只有一个备用单位工作。

　　微软表示，现场工作人员执行了我们记录在案的紧急操作程序（EOP），试图使冷却器恢复在线，但没有成功。

　　因现场没有足够的员工，其应急程序也没有及时恢复。

　　该公司表示：“由于数据中心园区的规模，团队在夜间的人员配备不足以及时重启冷却器。”

　　“我们暂时将团队规模从3人增加到7人，直到更好地了解潜在问题并采取适当的缓解措施。”

　　关于EOP，微软表示：“对于爆炸半径如此之大的事件，重新启动冷却器的EOP执行缓慢。”

　　“我们正在探索改进现有自动化的方法，以便对各种电压暂降事件类型更有弹性。”虽然没有足够的员工来执行记录在案的程序，但有更多的员工会更快地得到同样的结果，因为冷却器本身也有问题。初步调查显示，冷水机组没有自动重启，因为相应的泵没有从冷水机组获得运行信号。

　　微软表示：“这一点很重要，因为它是冷水机组成功重启不可或缺的一部分。我们正在与OEM供应商合作，调查为什么冷却器没有命令各自的泵启动。”

　　微软表示，由于冷冻水回路温度已超过阈值，出现故障的冷水机组无法手动重启。随着气温的升高和基础设施发出的高温警告，微软别无选择，只能关闭服务器。

　　该公司表示：“这成功地使冷冻水回路温度降至所需阈值以下，并使冷却能力得以恢复。”

　　存储、SQL数据库恢复

　　尽管如此，并非一切都顺利恢复。该事件影响了七名存储租户，其中五名为普通客户，两名为高级客户。

　　微软表示，一些存储硬件被数据大厅的温度损坏。由于存储节点处于脱机状态，诊断程序无法进行故障排除。

　　微软表示：“因此，我们的现场数据中心团队需要手动移除组件，并逐一重新安置，以确定哪些特定组件阻止每个节点启动。为了成功恢复数据和恢复受影响的节点，需要更换几个组件。并且为完全恢复数据，一些原始/故障组件需要临时重新安装在各个服务器中。”

　　作为代码自动化的基础架构也失败了，错误地批准了过时的请求，并将一些正常的节点标记为不正常，这减缓了存储恢复工作。

　　该公司表示：“当我们试图将数据库迁移出降级环时，SQL手头没有经过良好测试的工具，这些工具是在源环处于健康状况降级的情况下移动数据库的。”

　　最后的PIR预计将在几周内完成。

每日精选

微软数据中心园区出现故障导致部分存储硬件被烧毁现发布事故报告

　　上周，微软数据中心园区的员工人数不足，当时电力中断导致其两个数据大厅的冷却器工厂离线，烧毁了部分存储硬件。　　微软发布了大规模

2023-09-04
三星宣布推出新款Pro Ultimate存储卡读取速度高达200MB/s

　　三星正推出一系列新的存储卡，以帮助专业内容创作者。这些基本上是为那些在无人机中使用SD和微型SD卡进行长格式视频、直播的人设计的高

2023-09-04
零跑汽车发布全新的SUV预告图：造型十分硬朗车顶配备激光雷达

　　零跑汽车发布了一张全新的 SUV 预告图。参考此前爆料，这款新车应该就是之前曝光已久的内部代号 B11 的全新 SUV。　　官方将其称

2023-09-04
最新十大热门手机榜单出炉：华为Mate60 Pro挤下三星A54登顶

　　有国外网站公布了最新一期十大热门手机排行榜。榜单显示，与上周相比，三星A54丢掉第一宝座，华为Mate60 Pro登顶，索尼新机Xperia

2023-09-04
欧洲航天局“赫拉号”探测器组装完成可进行全面的太空准备状态测试

　　欧洲航天局的太空探测器任务 "赫拉"（Hera）日前已经在德国不来梅 OHB 公司成功组装，据欧洲航天局声称，该探测器分成两部分模块建

2023-09-04
魅族20・独白加码返场：新增12GB+256GB版本到手仅2999元起

　　魅族科技宣布，魅族 20・独白加码返场，新增 12GB+256GB 版本，限时暴省 400，到手仅 2999 元起，现已全渠道开售。　　魅族 20

2023-09-04
Rapidus已雇用200多名员工计划到2027年建造一座尖端晶圆厂

　　据彭博社报道，初创公司 Rapidus 表示已雇用 200 多名员工，力争到 2027 年建造一座尖端晶圆厂，向台积电挑战。　　据了解，Rapi

2023-09-04
续航力超特斯拉奔驰发布单次充电可行驶750公里电动车

　　德国豪华车大厂奔驰发布一款单次充电即可行驶750公里的电动汽车，续航力超过市场上美国电动汽车厂特斯拉的所有车款，包括改版后的新Mod

2023-09-04
宝马发布次世代电动汽车品牌Neue Klasse 首款预定2025年生产

　　德国豪华车制造商宝马在慕尼黑国际车展（IAA）发布次世代电动汽车品牌Neue Klasse，象征追赶特斯拉的努力进入新阶段，并将捍卫重要的

2023-09-04

微软数据中心园区出现故障导致部分存储硬件被烧毁现发布事故报告

相关阅读

每日精选