概述
基于人工智能的操作 (AIOps) 是人工智能和傳統(tǒng) AM/IM 操作的融合。與所有其他領(lǐng)域一樣,AI 將對運營管理產(chǎn)生重大影響。當 AI 的電源應用于操作時,它將重新定義應用程序和支持應用程序/基礎(chǔ)結(jié)構(gòu)的管理方式。
多個應用程序同時運行可生成大量數(shù)據(jù)。數(shù)據(jù)從網(wǎng)絡層直接生成到 API 調(diào)用對最終用戶的延遲。用戶期望獲得應用程序體驗,而不會出現(xiàn)絲毫的性能中斷。
可以從堆棧的不同層獲取數(shù)據(jù),這成為推斷見解的豐富來源。操作的復雜性導致了算法 IT 操作 (AIOps) 平臺的創(chuàng)建。平臺解決方案使用 AI 和 ML 從監(jiān)控數(shù)據(jù)中獲得見解,并通過增強人工決策來推動自動化解決方案。
重要用例和解決方案
應用程序監(jiān)控
應用程序指標跟蹤響應時間、請求/分鐘、時間刻度加班錯誤率以及識別其行為趨勢等內(nèi)容。此外,還捕獲了 CPU 利用率、內(nèi)存利用率和負載平均值等基礎(chǔ)結(jié)構(gòu)指標,以了解基礎(chǔ)結(jié)構(gòu)層如何支持以滿足應用程序的不同負載條件。隨著應用程序復雜性的增加,很難從預期模式檢測異常。如果被忽視,這些異??赡軙е聺撛诘闹袛?。
解決 方案
可以在不同作用域(包括應用程序級別、服務級別、事務級別和外部依賴項)分析和發(fā)現(xiàn)更改模式。首先,確定什么構(gòu)成正常的系統(tǒng)行為,然后辨別與正常系統(tǒng)行為的背離。AIOps 可以通過精確定位源來準確突出顯示這些異常值,這有助于實時更好地實現(xiàn) RCA。此外,它還可以防止?jié)撛诘闹袛嗪突A(chǔ)結(jié)構(gòu)中斷。
事務跟蹤
業(yè)務事務范圍從點對點應用程序連接之間的簡單同步消息交換到更復雜的異步通信。要跟蹤事務,需要流一個復雜的跟蹤和監(jiān)視解決方案。長時間運行的多步異步事務傳輸 IT 基礎(chǔ)架構(gòu),跨越多種技術(shù)、層等。
解決 方案
復雜的交易經(jīng)常變形和拆分,從而通過標記或統(tǒng)計采樣技術(shù)挑戰(zhàn)標準跟蹤和分析。通過檢查方法調(diào)用和單個消息有效負載內(nèi)容,關(guān)聯(lián)它們并呈現(xiàn)任何掛起或現(xiàn)有行為和性能中的違規(guī)的直觀可視化,將事務拼接在一起
本地化缺陷
管理軟件質(zhì)量是軟件開發(fā)生命周期中的一大問題進入生產(chǎn)環(huán)境之前,識別和修復缺陷非常重要。生產(chǎn)中發(fā)現(xiàn)的任何缺陷都會產(chǎn)生巨大的成本。在此上下文中,查找 Bug 被認為是最耗時且最具挑戰(zhàn)性的活動,因為可用資源有限。因此,在軟件工程中需要全/半自動化技術(shù)來增強手動調(diào)試過程。如果開發(fā)人員獲取了一些提示,其中 Bug 可能被本地化,則調(diào)試將變得更加高效
解決 方案
各種圖形挖掘算法/技術(shù)可用于本地化軟件缺陷。這些技術(shù)依賴于檢測故障和傳遞跟蹤之間的區(qū)分子圖。當故障未以罕見的代碼模式顯示時,這些方法可能不適用。另一方面,許多方法側(cè)重于選擇可能有缺陷的程序組件(語句或謂詞),然后根據(jù)這些組件的可疑程度和執(zhí)行跟蹤上下文根據(jù)控制流圖對它們進行排名
到達基線
性能基準確定應用程序和基礎(chǔ)結(jié)構(gòu)的組件在不同的負載條件下的性能。負載條件為”正常”、”操作”、”準”、”應力”、”峰值”、”斷點”等,基線是一組規(guī)則或閾值,用于單個指標的閾值,預計在上限和下限之間有所不同。傳統(tǒng)上,這些關(guān)聯(lián)是通過在收集在定義的時間間隔內(nèi)收集的性能數(shù)據(jù)并實時部署以在發(fā)生任何性能偏差時通知的性能數(shù)據(jù)后運行機器學習算法來建模的。這種方法非常適合組件,但與現(xiàn)代開發(fā)方法的”相關(guān)性”點無效。
解決 方案:
超融合基礎(chǔ)架構(gòu)管理、域驅(qū)動應用程序開發(fā)、分布式計算激增、多態(tài)編程和持久性的影響改變了軟件組件的開發(fā)和部署方式。需要不斷在動態(tài)擴展/縮小的基礎(chǔ)基礎(chǔ)架構(gòu)之上部署軟件組件的頻繁更改。這種范式轉(zhuǎn)變強制模型構(gòu)建練習使用近實時數(shù)據(jù),以保持與應用程序和基礎(chǔ)結(jié)構(gòu)組件中的最新更改相關(guān)。這些模型需要使用實時源來學習新規(guī)則并不斷發(fā)展。
預測問題
APM 中的智能警報是動態(tài)檢測異常。要使警報具有智能性,該工具需要可配置以了解應用程序的性質(zhì)及其行為,以便它可以檢測異常。定義靜態(tài)閾值很常見;例如,如果此服務呼叫需要三秒鐘以上才能返回,則引發(fā)警報。但是,識別要監(jiān)視的重要指標及其針對不同應用程序使用模式的閾值是非常繁瑣的,因此需要智能方法來基準應用程序的正常性,并在出現(xiàn)異常行為時發(fā)出通知如今,工具足夠智能,可以了解應用程序的行為并建立基線,允許您定義在分析基于基線的請求時要使用的策略,并在存在需要查看的實際問題時智能警報。