谷歌分析宕機(jī)原因：SRE超載系統(tǒng)致谷歌云存儲(chǔ)錯(cuò)誤率提高

時(shí)間：2019-03-15 20:39:57

關(guān)鍵字： facebook 宕機(jī) 谷歌

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]谷歌的分析報(bào)告指出，本月11日，Google SRE發(fā)出警報(bào)內(nèi)部blob服務(wù)使用的元數(shù)據(jù)的存儲(chǔ)資源顯著增加;3 月 12 日，為了減少資源使用，SRE進(jìn)行了配置更改，其副作用是使系統(tǒng)的關(guān)鍵部分超載以查找blob數(shù)據(jù)的位置，而增加的負(fù)載最終導(dǎo)致級(jí)聯(lián)故障。

本月12日，全球各地的用戶反饋谷歌旗下Gmail、YouTube、Google Drive等服務(wù)發(fā)生宕機(jī)，與此同時(shí)，F(xiàn)acebook旗下的WhatsApp、Instagram也在14日發(fā)生了大規(guī)模宕機(jī)事故。盡管兩起宕機(jī)事故看似非常接近，但實(shí)際上，這兩起事故本身不具備關(guān)聯(lián)性。

根據(jù)谷歌方面提供的事件報(bào)告，本次谷歌相關(guān)發(fā)生大規(guī)模宕機(jī)是因?yàn)楣雀鑳?nèi)部的blob(大型數(shù)據(jù)對(duì)象)存儲(chǔ)服務(wù)經(jīng)歷了4小時(shí)10分鐘的中斷。受此影響，包括美洲、歐洲和亞洲的部分地區(qū)都受到了此次宕機(jī)時(shí)間影響。谷歌的分析報(bào)告指出，本月11日，Google SRE發(fā)出警報(bào)內(nèi)部blob服務(wù)使用的元數(shù)據(jù)的存儲(chǔ)資源顯著增加;3 月 12 日，為了減少資源使用，SRE進(jìn)行了配置更改，其副作用是使系統(tǒng)的關(guān)鍵部分超載以查找blob數(shù)據(jù)的位置，而增加的負(fù)載最終導(dǎo)致級(jí)聯(lián)故障。

具體來看，谷歌內(nèi)部blob存儲(chǔ)服務(wù)從當(dāng)?shù)貢r(shí)間12日18:40到22:50期間錯(cuò)誤率提高，平均錯(cuò)誤率為 20%，事件發(fā)生時(shí)錯(cuò)誤率為31%，用戶可見的谷歌服務(wù)，包括使用blob存儲(chǔ)服務(wù)的Gmail、照片和谷歌云硬盤錯(cuò)誤率也提高了，如果沒有這些服務(wù)中內(nèi)置的緩存和冗余機(jī)制極大地降低了用戶影響，那么后果會(huì)更加嚴(yán)重。

谷歌表示，非谷歌云平臺(tái)服務(wù)受到的影響將有單獨(dú)的事件報(bào)告，對(duì)于受到此次事件影響的用戶，谷歌表示歉意，并表示將采取積極的措施防止此類事件的發(fā)生。