今天早上,我在擁堵的高速公路上停下來買咖啡喝,我已經(jīng)養(yǎng)成這種習慣了。當然,正宗雙層自由售賣焦糖可續(xù)杯摩卡加點脫脂奶才是上品,但是一小杯咖啡混合些牛奶對于我來說已經(jīng)足夠好了。高速公路上的行車速度慢得出奇,排隊窗口處我看見有半數(shù)車輛會暫停一會兒——然后又像F-18戰(zhàn)斗機一樣飛速離去。輪到我的時候,一個虛空般的聲音飄來:“歡迎來到麥當勞。我們今天只收現(xiàn)金,信用卡機器壞了。您需要什么?”
接下來發(fā)生的事情提醒了我們WAN的重要性,以及WAN故障的最基本影響。
曾經(jīng)有一次,我錢包里實際上只有5美元左右,然后買了一杯咖啡和找了零錢——一切都是老一套;我剩下幾個便士而已。按照我平時買咖啡的習慣,我會開車到停車場一角,查看我的電子郵件和工作日程,整理一下接下來一天的想法,順便錯開一段交通擁擠的時間。
然而,今天早上我觀察到的趨勢要好過我的預期,我開始計算失望而去的人數(shù)與高興而歸的人數(shù)之比例。5輛車中有3輛車開走了。這意味著這家麥當勞店將60%的重要早晨顧客放走了。而且,收銀員告訴我說,這個區(qū)域內(nèi)所有店的網(wǎng)絡都已經(jīng)癱瘓。因此,我們可以推斷,在這個區(qū)域甚至整個地區(qū)中,這個大品牌因為斷網(wǎng)而每秒鐘都在真真切切地損失金錢。
且不論Target因為防火墻問題損失5億多美元的事件,這個狀態(tài)更加讓人難受!這就像坐在飛機場里,航空公司的訂票系統(tǒng)斷線,然后每秒鐘有1億美元消失不見。不同的是,極少發(fā)生的航空旅客服務系統(tǒng)(PSS)停運事件一定會成為頭條新聞。Sabre曾經(jīng)保持6年時間正常運行而不發(fā)生任何分鐘級短暫停用事件。
然而,像我觀察到這種WAN故障每天都在發(fā)生,只是我們已經(jīng)接受了它屬于業(yè)務正?,F(xiàn)象。與PSS不同,它們可能會有上百萬個故障點,監(jiān)控它們確實是一種巨大挑戰(zhàn),或者說代價高昂,所以一般的做法就是雙手合十做個祈禱而已。但是,在現(xiàn)代互聯(lián)的服務中,祈禱并不是解決問題的方法。
每一條鏈路都可能造成影響
我們很容易關注于可用性監(jiān)控和一些重要業(yè)務的警報——如混合云中云與本地機架之間的VPN鏈路,以及連接業(yè)務所依賴的遠程桌面等軟件即服務(SaaS)。
但是,許多業(yè)務變得越來越分散,甚至現(xiàn)在需要監(jiān)控的互聯(lián)網(wǎng)鏈路會多達幾百條。例如,Salesforce是一個核心,但是會有多少鏈路連接各個區(qū)域辦公室呢?企業(yè)的每一個銷售代表是否都有他們需要的鏈路數(shù)呢?還有醫(yī)療保健臺、上游供應商及時庫存跟蹤系統(tǒng)和銷售點PC呢?
每一天關鍵終端任務都會遷移到我們的網(wǎng)絡,同時它們所依賴的服務會以SaaS或云的方式發(fā)布到互聯(lián)網(wǎng)上。我們似乎都忘記了WAN的出現(xiàn)要比LAN遲幾十年,只有在LAN得到很好的監(jiān)控之后,人們才會去考慮WAN的監(jiān)控。
早上的外賣案例體現(xiàn)了兩個方面:一、WAN不僅對于園區(qū)間業(yè)務(即核心網(wǎng)絡與云網(wǎng)絡)而言非常重要,它也是交付最普通產(chǎn)品(如快餐)的重要條件。它出現(xiàn)故障會立即對收益產(chǎn)生重大影響,因為手頭上的易變質(zhì)食品賣不出去會造成額外損失。二、WAN可能會在緊急時刻成為網(wǎng)絡管理員的巨大難題。有時候高速公路排長隊時,可能一位管理員認為這是很平常的一天。但是,當他的手機響起,另一端傳來地區(qū)長官憤怒的聲音,更壞的后來他的營業(yè)執(zhí)照會被吊銷。
我對此心生感概。另外,我馬上給自己的日程加上了一條,再一次檢查我的遠程IP服務水平協(xié)議測試程序。這也是我對你的建議。