谷歌分析宕機原因:SRE超載系統(tǒng)致谷歌云存儲錯誤率提高
本月12日,全球各地的用戶反饋谷歌旗下Gmail、YouTube、Google Drive等服務(wù)發(fā)生宕機,與此同時,F(xiàn)acebook旗下的WhatsApp、Instagram也在14日發(fā)生了大規(guī)模宕機事故。盡管兩起宕機事故看似非常接近,但實際上,這兩起事故本身不具備關(guān)聯(lián)性。
根據(jù)谷歌方面提供的事件報告,本次谷歌相關(guān)發(fā)生大規(guī)模宕機是因為谷歌內(nèi)部的blob(大型數(shù)據(jù)對象)存儲服務(wù)經(jīng)歷了4小時10分鐘的中斷。受此影響,包括美洲、歐洲和亞洲的部分地區(qū)都受到了此次宕機時間影響。谷歌的分析報告指出,本月11日,Google SRE發(fā)出警報內(nèi)部blob服務(wù)使用的元數(shù)據(jù)的存儲資源顯著增加;3 月 12 日,為了減少資源使用,SRE進行了配置更改,其副作用是使系統(tǒng)的關(guān)鍵部分超載以查找blob數(shù)據(jù)的位置,而增加的負載最終導致級聯(lián)故障。
具體來看,谷歌內(nèi)部blob存儲服務(wù)從當?shù)貢r間12日18:40到22:50期間錯誤率提高,平均錯誤率為 20%,事件發(fā)生時錯誤率為31%,用戶可見的 谷歌服務(wù),包括使用blob存儲服務(wù)的Gmail、照片和谷歌云硬盤錯誤率也提高了,如果沒有這些服務(wù)中內(nèi)置的緩存和冗余機制極大地降低了用戶影響,那么后果會更加嚴重。
谷歌表示,非谷歌云平臺服務(wù)受到的影響將有單獨的事件報告,對于受到此次事件影響的用戶,谷歌表示歉意,并表示將采取積極的措施防止此類事件的發(fā)生。