轉(zhuǎn)向AIOps之前,你應(yīng)該知道什么?
FreeWheel 創(chuàng)建于 2007 年,總部位于美國(guó)硅谷,主要業(yè)務(wù)是提供互聯(lián)網(wǎng)視頻廣告投放、監(jiān)測(cè)、預(yù)測(cè)、增值等解決方案。經(jīng)過(guò)十多年的發(fā)展,F(xiàn)reeWheel 的業(yè)務(wù)量不斷增長(zhǎng),系統(tǒng)架構(gòu)日趨復(fù)雜,公司運(yùn)維團(tuán)隊(duì)面臨的挑戰(zhàn)也越來(lái)越大。FreeWheel 的運(yùn)維團(tuán)隊(duì)經(jīng)歷了從最初的小規(guī)模傳統(tǒng)運(yùn)維,到按照職能細(xì)分的運(yùn)維團(tuán)隊(duì)組織模式,再到最近幾年轉(zhuǎn)換 DevOps 思想,進(jìn)而到 SRE 的演變,目前正在探索實(shí)踐 AIOps。作為積極擁抱新技術(shù)和新思想的團(tuán)隊(duì),F(xiàn)reeWheel 結(jié)合自身的痛點(diǎn)對(duì)團(tuán)隊(duì)、工具和流程進(jìn)行持續(xù)改進(jìn),其轉(zhuǎn)向 AIOps 的例子十分典型,他們踩過(guò)的一些坑對(duì)想要采用 AIOps 的企業(yè)和團(tuán)隊(duì)也很有借鑒意義。
1
FreeWheel 運(yùn)維團(tuán)隊(duì)的演進(jìn)從公司 2007 年創(chuàng)立到現(xiàn)在,F(xiàn)reeWheel 運(yùn)維團(tuán)隊(duì)的發(fā)展大致經(jīng)歷了以下幾個(gè)階段:
傳統(tǒng)運(yùn)維。公司成立初期業(yè)務(wù)量較小,系統(tǒng)的復(fù)雜性也不高,各方面挑戰(zhàn)都不大。此時(shí)運(yùn)維團(tuán)隊(duì)規(guī)模很小,各項(xiàng)工作基本都是大家一起完成,包括網(wǎng)絡(luò)規(guī)劃、硬件安裝、軟件部署、監(jiān)控報(bào)警等。日常管理工作通常是通過(guò)直接執(zhí)行命令或編寫簡(jiǎn)單腳本來(lái)完成。
運(yùn)維職責(zé)分化。隨著 FreeWheel 的業(yè)務(wù)快速成長(zhǎng),產(chǎn)品線不斷擴(kuò)展,系統(tǒng)模塊數(shù)量及相互間關(guān)聯(lián)依賴的復(fù)雜度隨之增加,基礎(chǔ)設(shè)施也變得越來(lái)越龐大,整體運(yùn)維工作變得非常復(fù)雜,運(yùn)維團(tuán)隊(duì)面臨的挑戰(zhàn)直線上升。在這段時(shí)期 FreeWheel 將整個(gè)全球運(yùn)維團(tuán)隊(duì)進(jìn)行細(xì)分,包括系統(tǒng)運(yùn)維、網(wǎng)絡(luò)運(yùn)維、數(shù)據(jù)庫(kù)運(yùn)維以及產(chǎn)品運(yùn)維。產(chǎn)品運(yùn)維更側(cè)重在產(chǎn)品部署、服務(wù)運(yùn)行等產(chǎn)品環(huán)境,跟軟件開(kāi)發(fā)人員的溝通交流更為緊密,通常會(huì)結(jié)合自身的運(yùn)維經(jīng)驗(yàn)和需求提出建議,協(xié)助設(shè)計(jì)和搭建監(jiān)控、報(bào)警系統(tǒng),從而使 FreeWheel 業(yè)務(wù)產(chǎn)品能夠更好、更穩(wěn)定地運(yùn)行。這個(gè)階段運(yùn)維團(tuán)隊(duì)的組織結(jié)構(gòu)變得更加清晰,各運(yùn)維小組的職責(zé)變得更加明確。
DevOps。FreeWheel 有一段時(shí)間成立了專門的 DevOps 團(tuán)隊(duì),負(fù)責(zé)建設(shè)從代碼管理、打包測(cè)試、上線部署到配置管理、報(bào)警監(jiān)控的一整套管道流程和工具平臺(tái),力爭(zhēng)打破開(kāi)發(fā)和運(yùn)維之間的邊界,實(shí)現(xiàn)更好、更快的代碼上線及服務(wù)變更。但在具體實(shí)踐中,由于該團(tuán)隊(duì)所招聘的人員運(yùn)維經(jīng)驗(yàn)偏少,對(duì)系統(tǒng)上線和監(jiān)控的理解不夠深入,同時(shí)和眾多的開(kāi)發(fā)團(tuán)隊(duì)之間也難以保障充分溝通,導(dǎo)致開(kāi)發(fā)和運(yùn)維兩方面的具體需求都得不到快速有效的響應(yīng)。這一階段 FreeWheel 走過(guò)了一些彎路,值得反思。
SRE。SRE 的角色定義在 Google 首先建立和推行,F(xiàn)reeWheel 的產(chǎn)品運(yùn)維組在過(guò)去一年中也進(jìn)行了相關(guān)實(shí)踐,結(jié)合自身現(xiàn)實(shí)情況,嘗試使用工程的思想和手段來(lái)審視與改進(jìn)生產(chǎn)環(huán)境的運(yùn)維工作,并盡可能推動(dòng)運(yùn)維自動(dòng)化。具體工作包括和產(chǎn)品開(kāi)發(fā)團(tuán)隊(duì)一起梳理并建立 CD(持續(xù)部署)流程和平臺(tái),對(duì)業(yè)務(wù)和產(chǎn)品進(jìn)行實(shí)時(shí)監(jiān)控,關(guān)注報(bào)警以及系統(tǒng)的穩(wěn)定性、可用性,明確定義 SLO(Service Level Objective),確保對(duì)用戶承諾的 SLA(Service Level Agreement)。
2
哪些痛點(diǎn)促進(jìn)團(tuán)隊(duì)轉(zhuǎn)向 AIOps在 FreeWheel 的發(fā)展過(guò)程中,業(yè)務(wù)和技術(shù)層面的多個(gè)痛點(diǎn)促使運(yùn)維團(tuán)隊(duì)嘗試從運(yùn)維智能化的發(fā)展趨勢(shì)中尋求有效的解決方案。例如:
FreeWheel 一個(gè)突出的業(yè)務(wù)模式是在直播賽事中投放廣告。近年來(lái)公司服務(wù)的直播源大幅增加,從用戶過(guò)來(lái)的廣告數(shù)量包括流量峰值都難以預(yù)測(cè),這對(duì)廣告服務(wù)器以及后端的技術(shù)平臺(tái)和架構(gòu)的可擴(kuò)展性和穩(wěn)定性都提出了很高的要求。同時(shí),直播賽事中廣告播放的時(shí)間點(diǎn)和時(shí)長(zhǎng)也是不可預(yù)測(cè)的,出問(wèn)題的時(shí)間可能短至幾秒甚至幾毫秒,但對(duì)客戶的即時(shí)影響很大,這時(shí)要捕捉到問(wèn)題并及時(shí)解決故障的難度非常高。依靠傳統(tǒng)的人工操作及簡(jiǎn)單自動(dòng)化已難以有效應(yīng)對(duì)上述的運(yùn)維挑戰(zhàn)。
在 FreeWheel 所聚焦的廣告領(lǐng)域,另一個(gè)極具代表性的痛點(diǎn)來(lái)自于欺詐和無(wú)效流量(IVT)對(duì)數(shù)字廣告生態(tài)系統(tǒng)所構(gòu)成的重大威脅。所謂“道高一尺,魔高一丈”,IVT 的不斷演變使得對(duì)應(yīng)的解決方案不可能簡(jiǎn)單的一蹴而就,而需要具備持續(xù)性和智能化的特點(diǎn),包括持續(xù)收集和分析流量來(lái)源、行為方式以及進(jìn)行特征理解,以更好地解決 IVT 這一威脅。
同時(shí),隨著 FreeWheel 業(yè)務(wù)系統(tǒng)越來(lái)越復(fù)雜,基礎(chǔ)設(shè)施各技術(shù)層面都出現(xiàn)了不同的挑戰(zhàn)。例如監(jiān)控層面,就出現(xiàn)監(jiān)控系統(tǒng)多樣化,報(bào)警條目和數(shù)據(jù)海量化,但同時(shí)報(bào)警信息不規(guī)范,各類報(bào)警郵件的主題和內(nèi)容都不統(tǒng)一,一個(gè)問(wèn)題經(jīng)常引發(fā)多條報(bào)警。在這種情況下,如何在海量的報(bào)警消息中甄別有效關(guān)鍵信息,并在報(bào)警風(fēng)暴的壓力下快速準(zhǔn)確地定位問(wèn)題解決問(wèn)題,成為運(yùn)維團(tuán)隊(duì)所面臨的巨大挑戰(zhàn)。
同樣在技術(shù)層面,如何對(duì)現(xiàn)有基礎(chǔ)設(shè)施的使用進(jìn)行有效的優(yōu)化,以支撐業(yè)務(wù)的穩(wěn)定運(yùn)行,也是運(yùn)維所面臨的難題。比如在網(wǎng)絡(luò)層面,業(yè)務(wù)量增大帶來(lái)流量增多、類型復(fù)雜,同時(shí)云戰(zhàn)略的推行也使得云端資源的訪問(wèn)日趨復(fù)雜,網(wǎng)絡(luò)運(yùn)維團(tuán)隊(duì)需要智能化的手段來(lái)有效識(shí)別流量,并做出靈活的判斷和優(yōu)化處理,比如給優(yōu)先級(jí)高的流量預(yù)留足夠的帶寬,以支撐各關(guān)鍵類型業(yè)務(wù)的順利開(kāi)展。
隨著近年來(lái)人工智能技術(shù)的快速發(fā)展,以及各領(lǐng)域運(yùn)維數(shù)據(jù)和經(jīng)驗(yàn)的積累為智能化運(yùn)維提供數(shù)據(jù)基礎(chǔ),AIOps 正成為運(yùn)維的下一個(gè)發(fā)展趨勢(shì)。FreeWheel 希望借助這個(gè)趨勢(shì)解決業(yè)務(wù)和技術(shù)層面所面臨的各種挑戰(zhàn),進(jìn)一步提升運(yùn)維水平,同時(shí)推進(jìn)運(yùn)維團(tuán)隊(duì)的成長(zhǎng),適應(yīng)公司業(yè)務(wù)、技術(shù)架構(gòu)以及整體團(tuán)隊(duì)發(fā)展的需要。
3
FreeWheel 的 AIOps 平臺(tái)建設(shè)FreeWheel 的 AIOps 平臺(tái)目前還在構(gòu)建過(guò)程中,如上文所述在某些領(lǐng)域已經(jīng)開(kāi)始了探索性的工作,同時(shí)也逐步規(guī)劃好未來(lái)的演進(jìn)方向。
上文提到,監(jiān)控層面的挑戰(zhàn)是 FreeWheel 探索 AIOps 的重要驅(qū)動(dòng)力之一,也是重點(diǎn)考慮的切入點(diǎn)。由于業(yè)務(wù)的復(fù)雜性和快速演進(jìn),F(xiàn)reeWheel 監(jiān)控系統(tǒng)的報(bào)警來(lái)源變得非常多樣。單就監(jiān)控系統(tǒng)而言,F(xiàn)reeWheel 使用了流行的 Nagios 和 Zabbix 以及開(kāi)源的 ELK 技術(shù)棧,也使用了在云端應(yīng)用較多的商業(yè)軟件 Datadog,以及 Splunk 等產(chǎn)品。下圖展示了 FreeWheel 目前監(jiān)控體系(包括統(tǒng)一報(bào)警、事件收集、分析通知平臺(tái))的架構(gòu)圖:
左側(cè)的所有監(jiān)控平臺(tái)和日志系統(tǒng)都是 FreeWheel 現(xiàn)在的監(jiān)控?cái)?shù)據(jù)源,通過(guò)公司的郵件系統(tǒng)和 Slack 消息系統(tǒng)進(jìn)行集成和整合,運(yùn)維團(tuán)隊(duì)(主要是 NOC – Network OperaTIon Center 團(tuán)隊(duì))重點(diǎn)關(guān)注這兩個(gè)渠道的報(bào)警信息。NOC 系統(tǒng)內(nèi)部有數(shù)據(jù)可以進(jìn)行訓(xùn)練,會(huì)預(yù)先設(shè)定某些條件,對(duì)報(bào)警消息的主題或內(nèi)容做標(biāo)識(shí),這樣 NOC 就能通過(guò)識(shí)別標(biāo)識(shí),進(jìn)而觸發(fā)圖中右側(cè)的 OpsGenie 自動(dòng)化平臺(tái)。OpsGenie 提供豐富的接口,能夠?qū)崿F(xiàn)多種自動(dòng)化流程和動(dòng)作,例如發(fā)送即時(shí)消息、短信甚至直接打電話。這樣,嚴(yán)重的報(bào)警或事件就能第一時(shí)間進(jìn)行通知并及時(shí)得到響應(yīng)。
在該體系中,Splunk 和 ELK 可以在一定程度上做機(jī)器學(xué)習(xí),基于大量的 Metrics 和日志在內(nèi)部建立一些數(shù)據(jù)模型并進(jìn)行訓(xùn)練,生成規(guī)則協(xié)助分析并解決問(wèn)題,但它們并不能覆蓋所有的數(shù)據(jù)源。此外,由于報(bào)警來(lái)源太多,各種數(shù)據(jù)格式不規(guī)整,在加上監(jiān)控的頻度也不一樣,報(bào)警有快有慢,一個(gè)問(wèn)題可能引發(fā)很多報(bào)警,雖然郵件系統(tǒng)和 Slack 對(duì)報(bào)警消息實(shí)施了初步的整合和歸集,但如圖所示,由于智能化應(yīng)用程度有限,它們并未能大幅消減報(bào)警風(fēng)暴,并提供有益的關(guān)聯(lián)分析等功能,這樣運(yùn)維人員分析和定位問(wèn)題的效率并未大幅提升。
為了解決上述問(wèn)題,F(xiàn)reeWheel 計(jì)劃對(duì)目前的監(jiān)控體系進(jìn)行優(yōu)化,主要是引入 MoogSoft 來(lái)替換上圖中郵件系統(tǒng)和 Slack 所占據(jù)的中心位置,使后兩者回歸通知渠道的本職功能,而 MoogSoft 將進(jìn)行:
將監(jiān)控平臺(tái)集中化和統(tǒng)一化,規(guī)整來(lái)自各種數(shù)據(jù)源的報(bào)警信息,使之更利于理解和分析,包括機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用;
匯總、關(guān)聯(lián)報(bào)警信息,比如根據(jù)時(shí)間、區(qū)域、主題等維度的相關(guān)性對(duì)報(bào)警信息進(jìn)行歸類和壓縮等;
過(guò)濾、分析數(shù)據(jù)進(jìn)行知識(shí)學(xué)習(xí),比如根據(jù)過(guò)往處理的報(bào)警事件相關(guān)信息,通過(guò)機(jī)器學(xué)習(xí)建立模型(包括特定報(bào)警事件中報(bào)警消息的模式等),以用于識(shí)別未來(lái)發(fā)生的類似報(bào)警事件。
經(jīng)過(guò)如上處理,各個(gè)數(shù)據(jù)源關(guān)于同一個(gè)事件的多個(gè)報(bào)警通過(guò)機(jī)器學(xué)習(xí)的模型分析匯聚成一個(gè)報(bào)警,避免了報(bào)警風(fēng)暴造成的困擾,使運(yùn)維人員可以快速準(zhǔn)確地定位到問(wèn)題。OpsGenie 再觸發(fā)流程及時(shí)通知相關(guān)技術(shù)響應(yīng)人員,處理報(bào)警的效率就會(huì)很高。這樣優(yōu)化后的監(jiān)控體系架構(gòu)如下圖所示:
此外,在分析報(bào)警事件的過(guò)程中,基于相關(guān)性的分析,Moogsoft 不僅可以為運(yùn)維人員提示與當(dāng)前事件類似的過(guò)往事件,還可以通過(guò)時(shí)序分析提示當(dāng)前事件所聚合的成百上千報(bào)警信息中可能的根源(root cause)報(bào)警信息,以協(xié)助加速問(wèn)題的分析與解決。在處理完某個(gè)報(bào)警事件后,運(yùn)維人員還可以將所積累的知識(shí)標(biāo)注和關(guān)聯(lián)到系統(tǒng)中,以支持系統(tǒng)模型的不斷提升。
在監(jiān)控層面,如上文所述,F(xiàn)reeWheel 另一個(gè)挑戰(zhàn)是期望在直播賽事過(guò)程中先于客戶發(fā)現(xiàn)問(wèn)題。這就需要能做到實(shí)時(shí)監(jiān)控并有效預(yù)警。作為上述監(jiān)控體系的補(bǔ)充和增強(qiáng),F(xiàn)reeWheel 的監(jiān)控團(tuán)隊(duì)還構(gòu)建了集中統(tǒng)一、時(shí)效性更高的監(jiān)控平臺(tái) PQM,如下圖所示:
該平臺(tái)采樣間隔粒度更細(xì),數(shù)據(jù)庫(kù)選用專為實(shí)時(shí)監(jiān)控設(shè)計(jì)的時(shí)序數(shù)據(jù)庫(kù),也引入了 Kubernetes 原生的 Prometheus 監(jiān)控平臺(tái)來(lái)采集數(shù)據(jù)。在報(bào)警爆發(fā)以后,監(jiān)控平臺(tái)可以自動(dòng)做出響應(yīng),同時(shí)這套監(jiān)控系統(tǒng)還會(huì)基于非實(shí)時(shí)流量對(duì)業(yè)務(wù)數(shù)據(jù)做異常流量的自動(dòng)檢測(cè),再結(jié)合上述監(jiān)控體系智能化技術(shù)進(jìn)行輔助決策,就可以很好地定位問(wèn)題甚至預(yù)防問(wèn)題。
在監(jiān)控層面之上,F(xiàn)reeWheel 也探索使用 AIOps 技術(shù)協(xié)助解決一些業(yè)務(wù)挑戰(zhàn),比如欺詐和無(wú)效流量(IVT)的識(shí)別。在機(jī)器學(xué)習(xí)方面,通常需要一個(gè)數(shù)據(jù)集合來(lái)訓(xùn)練模型,然后才能對(duì)其進(jìn)行測(cè)試,但是建立一個(gè)準(zhǔn)確的、表示復(fù)雜機(jī)器人流量的數(shù)據(jù)集幾乎是不可能的,也是非常昂貴的。但廣告決策平臺(tái)的特殊定位,使得 FreeWheel 有機(jī)會(huì)解決數(shù)字廣告生態(tài)系統(tǒng)中無(wú)效流量的問(wèn)題。具體而言,應(yīng)用機(jī)器學(xué)習(xí)理解最終用戶的行為,形成模式構(gòu)建模版,之后用聚類算法來(lái)模擬流量行為,這樣可以識(shí)別突發(fā)流量,對(duì)流量進(jìn)行有效的評(píng)估,更好地檢測(cè)欺詐行為。FreeWheel 已開(kāi)始進(jìn)行初步的探索,結(jié)合廣告服務(wù)器的事務(wù)日志數(shù)據(jù)進(jìn)行分析,幫助做出有關(guān) IVT 檢測(cè)和刪除的有效決策。
在監(jiān)控層面之下的基礎(chǔ)設(shè)施,F(xiàn)reeWheel 也探索使用 AIOps 技術(shù)來(lái)優(yōu)化相關(guān)的運(yùn)維工作。比如針對(duì)網(wǎng)絡(luò)基礎(chǔ)架構(gòu)所面臨的挑戰(zhàn),F(xiàn)reeWheel 在積極的實(shí)施 SD-WAN 技術(shù)解決方案,該技術(shù)允許針對(duì)數(shù)據(jù)中心間流量的數(shù)據(jù)包進(jìn)行動(dòng)態(tài)重新路由,其中的核心技術(shù) First-Packet iQ 可以根據(jù)某個(gè)應(yīng)用的首個(gè)數(shù)據(jù)包進(jìn)行應(yīng)用識(shí)別,使其遠(yuǎn)優(yōu)于目前典型的數(shù)據(jù)包檢測(cè)以及端口檢測(cè)方法。這種智能化的技術(shù)有助于我們更快地識(shí)別惡意流量,減少被攻擊的可能性,并優(yōu)化基礎(chǔ)設(shè)施的使用效率,更好的保障關(guān)鍵業(yè)務(wù)的運(yùn)行,也減輕了基礎(chǔ)設(shè)施運(yùn)維的壓力和風(fēng)險(xiǎn)。
總體而言,在逐漸探索采用 AIOps 技術(shù)之后,F(xiàn)reeWheel 團(tuán)隊(duì)能明顯感覺(jué)到報(bào)警繁多的痛點(diǎn)得到了極大的緩解,一些智能決策的支持也讓團(tuán)隊(duì)的效率明顯提升,尤其能幫助運(yùn)維團(tuán)隊(duì)快速有效地定位、識(shí)別、解決問(wèn)題,降低 MTTR。對(duì)于 FreeWheel 這樣業(yè)務(wù)分布在全球的公司來(lái)說(shuō),AIOps 平臺(tái)和工作流程的優(yōu)化能切實(shí)解決很多問(wèn)題,具備很好的應(yīng)用前景。
4
如何看待 DevOps,SRE 和 AIOpsFreeWheel 的運(yùn)維團(tuán)隊(duì)經(jīng)歷過(guò) DevOps, SRE 和 AIOps 的各個(gè)發(fā)展階段,轉(zhuǎn)型過(guò)程中也才踩過(guò)一些坑,對(duì)這幾種運(yùn)維實(shí)踐有比較深的體會(huì)。
總體而言,DevOps 是一種思想的轉(zhuǎn)變和進(jìn)化,涉及到撰寫代碼、測(cè)試、發(fā)布、上線各個(gè)環(huán)節(jié),以及相應(yīng)技術(shù)手段的推進(jìn)和落地,目的是打通開(kāi)發(fā)和運(yùn)維之間的邊界,更關(guān)注從開(kāi)發(fā)到生產(chǎn)之間的流程如何快速迭代,從而達(dá)到縮短周期并提高產(chǎn)品質(zhì)量的目的。
SRE 更關(guān)注運(yùn)維階段,強(qiáng)調(diào)用工程的思想和手段來(lái)看待和解決運(yùn)維問(wèn)題,包括監(jiān)控、報(bào)警、容量評(píng)估、系統(tǒng)擴(kuò)展等,以及如何早期介入產(chǎn)品研發(fā)的架構(gòu)決策,以更好地保障在線產(chǎn)品 SLA 的目標(biāo)達(dá)成。
AIOps 則貫徹整個(gè)運(yùn)維領(lǐng)域,從硬件資源規(guī)劃、管理、實(shí)施,操作系統(tǒng)安裝配置,到中間件及應(yīng)用軟件的上線、變更,以及后續(xù)的監(jiān)控、報(bào)警、維護(hù)、優(yōu)化等各方面都需要關(guān)注?;诤A康男畔⒃匆约按髷?shù)據(jù)分析技術(shù),結(jié)合大量運(yùn)維專家的豐富經(jīng)驗(yàn)及人工智能算法,在各個(gè)領(lǐng)域、各個(gè)階段以更自動(dòng)化、更智能化的方式推動(dòng)運(yùn)維工作的變革。
5
關(guān)于 AIOps 實(shí)踐的建議AIOps 的概念歸根結(jié)底是對(duì)運(yùn)維規(guī)則的智能化發(fā)現(xiàn)與實(shí)施,即將人工經(jīng)驗(yàn)總結(jié)的過(guò)程變?yōu)樽詣?dòng)學(xué)習(xí)及輸出實(shí)施的過(guò)程,其目標(biāo)是利用大數(shù)據(jù)、人工智能及周邊技術(shù)實(shí)現(xiàn)對(duì)運(yùn)維效率、質(zhì)量、成本等方面的優(yōu)化和提升。
AIOps 是運(yùn)維領(lǐng)域發(fā)展的必然方向,凡是具有上述需求的企業(yè),包括互聯(lián)網(wǎng)企業(yè)以及數(shù)字化轉(zhuǎn)型中的生產(chǎn)制造企業(yè)等,都可以考慮嘗試 AIOps。FreeWheel 運(yùn)維團(tuán)隊(duì)向 AIOps 演進(jìn)是源自于自身的需求,實(shí)踐過(guò)程中雖然踩過(guò)不少坑,但也確實(shí)解決了很多問(wèn)題。對(duì)于決心實(shí)踐 AIOps 的團(tuán)隊(duì)或企業(yè),F(xiàn)reeWheel 基于自己切身的經(jīng)歷給出了一些建議:
標(biāo)準(zhǔn)化是基礎(chǔ)。比如報(bào)警的標(biāo)準(zhǔn)化和規(guī)范化,就是 AIOps 的重要基礎(chǔ),否則后續(xù)的工作代價(jià)就很大。最好能有架構(gòu)師團(tuán)隊(duì)從架構(gòu)決策層面整體把控技術(shù)平臺(tái)的選型、走向以及相關(guān)的標(biāo)準(zhǔn)規(guī)范,并通過(guò)強(qiáng)有力的治理(Governance)來(lái)統(tǒng)一協(xié)調(diào),推進(jìn)項(xiàng)目,做好平衡。
技術(shù)選型很關(guān)鍵。實(shí)施 AIOps,既可以選用相對(duì)成熟的商業(yè)化工具,也可以考慮自主研發(fā),關(guān)鍵是結(jié)合企業(yè)自身的業(yè)務(wù)特點(diǎn)和能力,注意投入產(chǎn)出比和時(shí)效性。
找準(zhǔn)切入點(diǎn)。如 FreeWheel 選擇監(jiān)控體系層面切入,因?yàn)閿?shù)據(jù)最豐富、痛點(diǎn)最突出、價(jià)值最彰顯。同時(shí) FreeWheel 也選擇在業(yè)務(wù)層面、基礎(chǔ)設(shè)施層面的一些點(diǎn)狀問(wèn)題(如 IVT、SD-WAN)上探索實(shí)踐。這些切入點(diǎn)的選擇需要結(jié)合企業(yè)的特定情況,爭(zhēng)取達(dá)成好的示范效應(yīng),同時(shí)培養(yǎng)團(tuán)隊(duì),夯實(shí)技術(shù)支撐體系,為后續(xù)的進(jìn)一步推廣應(yīng)用打下基礎(chǔ)。
人員從業(yè)經(jīng)驗(yàn)很重要。在團(tuán)隊(duì)方面,人員的素質(zhì)和經(jīng)歷很重要,只有在實(shí)踐中切實(shí)踩過(guò)坑,解決過(guò)實(shí)際問(wèn)題,才能對(duì)技術(shù)、流程、進(jìn)度有深入理解和切身體會(huì)。
希望正在看文章的你也能從 FreeWheel 的經(jīng)歷中吸取經(jīng)驗(yàn),結(jié)合自己的實(shí)際情況將運(yùn)維工作做得更好。