史上最霸氣測試!支付寶模擬自斷一半服務(wù)器:26秒一切恢復(fù)正常
互聯(lián)網(wǎng)時代,服務(wù)器機(jī)房可謂心臟,大型機(jī)房出故障是小概率事件。但即便如此,還是可能出現(xiàn)自然災(zāi)害、斷電、光纜被挖斷等黑天鵝事件。如果沒有完善的容災(zāi)系統(tǒng),不能及時恢復(fù),就會出現(xiàn)用戶信息丟失、資金損失的情況,后果不堪設(shè)想。
9月20日,杭州云棲大會ATEC主論壇現(xiàn)場上演了一場特別的技術(shù)秀。螞蟻金服副CTO胡喜現(xiàn)場模擬挖斷支付寶近一半服務(wù)器的光纜。結(jié)果只過了26秒,模擬環(huán)境中的支付寶就完全恢復(fù)了正常。
這是由支付寶工程師策劃的一次特別技術(shù)演練,他們基于支付寶的真實(shí)機(jī)房,在兩個城市各單獨(dú)搭建了兩個模擬機(jī)房,以測試當(dāng)兩個機(jī)房同時下線后的系統(tǒng)穩(wěn)定性。
螞蟻金服副CTO胡喜解釋,這次是演習(xí)。而在真實(shí)環(huán)境下,如果支付寶部署在兩個城市的兩個機(jī)房同時出問題,跑在這兩個機(jī)房上的支付寶賬戶恢復(fù)正常的速度是分鐘級。
據(jù)了解,這一機(jī)房架構(gòu)叫“三地五中心”,即在三座城市部署五個機(jī)房,一旦其中一個或兩個機(jī)房發(fā)生故障,支付寶的底層技術(shù)系統(tǒng)會將故障城市的流量全部切換到運(yùn)行正常的機(jī)房,并且能做到數(shù)據(jù)保持一致且零丟失。
目前互聯(lián)網(wǎng)和金融科技行業(yè)普遍采用的是“兩地三中心”部署架構(gòu),即在一個城市設(shè)兩個機(jī)房,在另一個城市設(shè)一個冷備機(jī)房。
胡喜強(qiáng)調(diào),這個架構(gòu),絕不僅僅是多設(shè)立了兩個機(jī)房那么簡單,它非??简?yàn)一家公司分布式架構(gòu)、數(shù)據(jù)庫、中間件及相關(guān)金融核心技術(shù)的能力。而這正是支付寶創(chuàng)立前十年修煉技術(shù)內(nèi)功的結(jié)果。“支付寶的技術(shù)目標(biāo)之一就是保證金融級別的系統(tǒng)穩(wěn)定和安全能力?!?/p>
曾有行業(yè)人士做過概率計(jì)算,兩個城市多個機(jī)房同時故障的概率極低,基本不會發(fā)生。而即便發(fā)生了,現(xiàn)場的演習(xí)也展示出支付寶強(qiáng)大的容災(zāi)能力。
胡喜在現(xiàn)場和大家開起了玩笑:“這次演練,告訴了大家一個好消息,一個壞消息。好消息是,支付寶很安全,很穩(wěn)定,至少要陪大家再過102年,壞消息是,不管剪多少光纜,花唄還是要還的?!?/p>