隨著運營商數據中心的規(guī)模越來越大,服務器數量越來越多,智能化程度越來越高,數據中心網絡運維遇到了三方面的挑戰(zhàn)。
首先,故障發(fā)現(xiàn)難。網絡的連接狀態(tài)、資源使用狀態(tài)和策略狀態(tài)對于運維人員來說是一個黑盒。當網絡故障時,網絡運維人員無法第一時間感知,而是要等到被業(yè)務部門投訴時才知道網絡發(fā)生了故障,但此時也無法及時知道網絡到底哪里出了故障。據統(tǒng)計,有85%以上的網絡故障在業(yè)務部門投訴后才能被網絡部門發(fā)現(xiàn)。久而久之,網絡部門成了“背鍋俠”,無法自證清白。
其次,故障定位難。傳統(tǒng)運維采用SNMP協(xié)議每5分鐘收集一次網絡信息,周期長、效率低。而且,傳統(tǒng)運維的定位手段只能通過查看日志的方式從海量的故障告警和日志信息中根據個人經驗排查定位問題,效率極其低下。據統(tǒng)計,一個故障的平均定位時間需要至少76分鐘。網絡運維人員直呼“寶寶心里苦啊”。
最后,業(yè)務感知難。隨著云和SDN的發(fā)展,網絡業(yè)務的配置方式從傳統(tǒng)的人工配置演變?yōu)橛稍破脚_和控制器配置的方式,網絡管理員很難實時感知到網絡的變化。
面對這些網絡運維的難題,華為提出了從“網絡應用—>網絡路徑-->網絡設備”三個層面進行關聯(lián)分析的FabricInsight網絡智能分析器,構建基于AI的“秒級故障感知、分鐘級故障定位”的智能運維能力。
圖1:華為FabricInsight網絡智能分析器架構
華為FabricInsight提供如下四大功能:
① FabricInsight采用Telemetry技術實現(xiàn)秒級的數據獲取,并基于ERSPAN流鏡像實現(xiàn)訂閱發(fā)布,按需使用。眾所周知,Telemetry一次可以獲取多個數據,編碼效率很高。這樣FabricInsight具備了實時獲取數據的能力,為分析器挖掘數據提供了堅實基礎和關鍵依賴。
② 數據獲取器將從網絡中獲取到的大量網絡狀態(tài)數據匯聚到大數據分析平臺。這個平臺可以對百億級的數據進行高效檢索和分析。
③ 大數據分析平臺基于內置的AI算法對獲取到的網絡狀態(tài)數據從“網絡應用->網絡路徑->網絡設備”的層面進行關聯(lián)分析,包括:網絡連接類、網絡性能類、網絡策略類和網絡資源類等方面的故障分析。
④ 邊緣交換機上的智能芯片可以實現(xiàn)故障模式的匹配和根因分析,進而實現(xiàn)分布式智能的深度故障分析和按需全流分析。
華為FabricInsight的卓越功能使其具備了一鍵式智能診斷、基于AI的主動預測性維護和基于流可視的邊緣智能的三大特點,并在實踐中有了廣泛應用。
以基于AI的光模塊故障概率預測為例,這幫助網絡運維人員提前判斷光模塊的故障概率和“健康狀態(tài)”。
網絡接口上數據的收發(fā)都需要通過光模塊。光模塊長時間運行會引起光器件的性能衰減,從而導致鏈路不穩(wěn)定。而這種不穩(wěn)定的“亞健康”狀態(tài)既沒有故障告警,又影響數據收發(fā)的完整性。傳統(tǒng)運維手段無法在光模塊已老化、故障發(fā)生之前及時識別風險并進行預警。光模塊的這種“亞健康”狀態(tài)會導致網絡提供給業(yè)務的服務質量下降,使網絡處于一種“可用”與“不可用”的間歇性中斷的臨界狀態(tài),極大影響業(yè)務質量感知。
圖2:光模塊的三個狀態(tài)
華為FabricInsight通過Telemetry實時獲取光模塊KPI,基于AI算法在光模塊視圖呈現(xiàn)全網光模塊的狀態(tài),包括:已經故障、可能故障以及故障概率分布。用戶在光模塊視圖通過矩形視圖就可以通過不同的顏色方便快速地識別已經故障和高故障率的光模塊。選中高故障率光模塊,就可以查看故障概率預測曲線。用戶還可以結合光模塊的接收功率、發(fā)送功率、電流、電壓、溫度的動態(tài)曲線等參數輔助判斷光模塊的運行狀態(tài)。結合AI算法和人工排查,用戶可以對光模塊的運行狀態(tài)進行準確預測,大大提高運維效率,提供良好的業(yè)務感知。
圖2:華為FabricInsight光模塊狀態(tài)預測界面
綜述,傳統(tǒng)運維面對的是靜態(tài)網絡,采用從網絡向上看業(yè)務的視角進行運維。而在云化時代和AI時代,網絡會隨業(yè)務動態(tài)變化,傳統(tǒng)運維手段大多失效或者低效,需要采用從業(yè)務向下看網絡的視角進行網絡運維,并結合AI算法實現(xiàn)應用與網絡的關聯(lián)分析,解決網絡故障發(fā)現(xiàn)難、定位難和業(yè)務感知難的問題。華為FabricInsight智能運維完美地解決了這些問題,為運營商邁入智能時代保駕護航。