?Top99 超時排查思路
時間:2021-09-30 13:52:03
手機看文章
掃描二維碼
隨時隨地手機看文章
[導(dǎo)讀]這篇文章想分享Top99超時排查的思路和在工作中主動向身邊的同事學(xué)習(xí)的一種意識背景介紹我們的系統(tǒng)Top90穩(wěn)定在19ms左右,Top99穩(wěn)定在46ms左右,Top999穩(wěn)定在50ms左右,監(jiān)控報警主要用的PrometheusGrafana自研報警平臺報警晚上和小伙伴們出去吃飯了,...
這篇文章想分享 Top99 超時排查的思路和在工作中主動向身邊的同事學(xué)習(xí)的一種意識
背景介紹
我們的系統(tǒng) Top90 穩(wěn)定在 19ms 左右,Top99 穩(wěn)定在 46 ms 左右,Top999 穩(wěn)定在 50ms 左右,監(jiān)控報警主要用的 Prometheus Grafana 自研報警平臺報警
晚上和小伙伴們出去吃飯了,突然收到了報警,一個工程的 top99 超過了 200 ms,持續(xù)時間大于了 10 分鐘。同時合作方 ADX 那邊反饋我們的 DSP 延遲比較嚴重。分析
在開始排查這個問題時,先看當時有沒有人上線了,確實有同事在報警發(fā)生時間點上線了,但通過查看 CR ,并沒有什么問題開始時我做了很多無用功,查看該服務(wù)所有的一臺機器的日志,也沒看出啥問題,從服務(wù)管理平臺檢查調(diào)用依賴服務(wù)是否超時嚴重,經(jīng)排查依賴服務(wù)都是正常的,頓時沒啥思路了我同事找到了一個突破口,我們系統(tǒng) Top90 穩(wěn)定在 19ms 左右,Top99 穩(wěn)定在 46 ms 左右,Top999 穩(wěn)定在 50ms 左右,而這次報警發(fā)生時,Top99 和 Top999 都達到了 200ms,而 Top90 是 20ms,顯然 Top90 沒怎么波動,這是非常重要的一個線索,從這些指標可以推斷出只有部分流量或節(jié)點出了問題排查
我們的業(yè)務(wù)指標監(jiān)控用的 Prometheus,在工程中埋點,數(shù)據(jù)收集到 Prometheus,然后在 Grafana 中展示,目前只是顯示了集群的 Top90、Top99、Top999 指標,同事在 Grafana 中操作了一番,然后發(fā)了一張圖(圖未截全)反思
首先我從同事身上學(xué)到了一種排查思路,Top99 和 Top999 超時比較嚴重,但 Top90 幾乎沒怎么變化,這就說明只是部分節(jié)點或部分流量出了問題,集群的大部分都是正常工作的。然后就順藤摸瓜,按實例分組展示指標,并做排序找到有問題的節(jié)點,然后有針對性的處理和排查雖然問題解決了,但同事在 Grafana 上操作了什么我不得而知,確實有沖動想問他那個語句怎么寫的,但都被自己打住了,在請教別人問題前,還是需要自己好好先查查的,然后我就看 Prometheus 官方文檔中的 Functions 部分工作中要主動向身邊的同事學(xué)習(xí),將其技能內(nèi)化成自己的!- END -