上周 Microsoft Azure 位于澳大利亞新南威爾士州的數據中心發生起火,除了服務全部離線外,這次事故還導致部分硬件被燒毀。此次事故持續將近 24 小時才陸續恢復,其中由于硬件損壞,部分客戶的數據無法轉移只能通過恢復手段進行復原。
微軟已經發布了這次事故的詳細報告,報告中提到了一些令人匪夷所思的情況,例如偌大的數據中心,在夜間竟然只有 3 名工程師值班,盡管這 3 名工程師已經盡力,但面對這種情況時仍然忙不過來,進而導致事故變得更嚴重。
澳大利亞東區數據中心概況:由多個機房組成、使用水冷系統、有 7 臺水冷設備其中 5 臺為常開機 2 臺為備用。
事故時間線:
事故觸發原因是新南威爾士州的市電供應出現問題 (8 月 30 日 08:41,注意是 UTC+0 時間非當地時間),導致 5 臺常開水冷機組全部掛掉,只有 1 臺備用機組自動開機,另一臺開機了但又跳閘了。
現場值班工程師按照緊急操作程序試圖恢復常開水冷機組但失敗了,微軟承認由于數據中心園區的規模,夜間團隊配備的人手不足以及時重啟水冷機組,為此微軟臨時將夜間值班工程師由 3 名增加到 7 名。
在水冷機組歇菜后,存儲和 SQL 服務器發出了告警,此時距離市電供應問題已經過去了 1 個小時 50 分鐘。隨著水冷機組的歇菜,服務器的溫度也越來越高。
接著工程師繼續嘗試啟動水冷機組,但依然沒能成功,到 11:20 水冷機組的 OEM 支持工程師抵達現場進行處理,到 11:34 現場工程師最終決定關閉兩個受影響的數據大廳的基礎設施。
到 12:12 五臺常開水冷機組終于手動重啟成功,接著數據中心溫度開始逐漸下降,隨后工程師開始為受影響的基礎設施恢復供電,最終到次日 06:40 所有設施恢復、所有數據恢復。
微軟大客戶受影響嚴重:
新南威爾士州數據中心托管著微軟多個大客戶的數據,包括但不限于昆士蘭銀行、捷星航空 (澳航旗下子公司) 等,這次事故導致微軟的這些大客戶受到嚴重影響。
從事故報告來看,故障自動轉移進行的似乎并不是很順利,按照設計邏輯,一旦出現故障,服務會自動轉移到其他數據中心確??蛻舨皇苡绊?。
此次故障 Azure 的故障轉移也進行了,但效果好像并不是很好,微軟表示后續要重新改進。
微軟的事后反思:
1. 由于數據中心規模較大,夜間團隊人員配備不足,無法及時重啟水冷機組,微軟暫時將夜間值班人員從 3 名增加到 7 名。
2. 對于這類大型事故,重啟水冷機組的緊急操作程序執行速度很慢,微軟正在探索改進自動化方案用來應對供電等問題。
3. 展望未來,微軟正在評估各種方法確??梢詫Ω鱾€水冷機組的子集負載曲線進行優先級排序,以便掛了的時候先將負載最高的機組重啟。
4. 利用流程表對工作負載故障轉移和設備關閉進行排序,用來確定不同的優先級,同時微軟正在改進水冷溫度報告,以便更好的根據溫度閾值來決定何時進行故障轉移或關閉服務器。
5. 五臺水冷機組沒有重啟,因為相應的水泵沒有收到水冷機組的運行信號,這很重要,因為水泵對水冷機組的成功啟動至關重要,為此微軟正在找水冷機組 OEM 調查為什么水冷機組沒有命令各自的水泵重啟。
6. 由于未知錯誤,一臺備用水冷機組就是跳閘那個沒能自動重啟,微軟正在找 OEM 診斷。
以上就是“超大數據中心僅3名員工值班 微軟澳洲數據中心起火燒毀部分硬件”的詳細內容,想要了解更多IT圈內資訊歡迎持續關注編程學習網。
掃碼二維碼 獲取免費視頻學習資料
- 本文固定鏈接: http://www.stbrigidsathleticclub.com/post/11354/
- 轉載請注明:轉載必須在正文中標注并保留原文鏈接
- 掃碼: 掃上方二維碼獲取免費視頻資料
查 看2022高級編程視頻教程免費獲取