www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

<tt id="girx6"></tt>

當前位置：首頁 > 公眾號精選 > 架構師社區(qū)

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

時間：2020-05-20 00:19:57

關鍵字： ROM REDIS ABB IC

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]本文根據李猛老師在〖deeplus直播第220期〗線上分享演講內容整理而成。李猛數據技術專家 Elastic-Stack產品深度用戶，ES認證工程師，對Elastic-Stack開發(fā)、架構、運維有深入體驗；實踐過多種ES項目，最暴力的大數據分析應用，最復雜的業(yè)務系統(tǒng)應用。序言

本文根據李猛老師在〖deeplus直播第220期〗線上分享演講內容整理而成。

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

李猛

數據技術專家

Elastic-Stack產品深度用戶，ES認證工程師，對Elastic-Stack開發(fā)、架構、運維有深入體驗；
實踐過多種ES項目，最暴力的大數據分析應用，最復雜的業(yè)務系統(tǒng)應用。

序言

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

圖示：Redis熱度排名

Redis當下很流行，也很好用，無論是在業(yè)務應用系統(tǒng)，還是在大數據領域都有重要的地位；但Redis也很脆弱，用不好，問題多多。2012年以前都是以memcached為主，之后轉到Redis陣營，經歷過單實例模式、主從模式、哨兵模式、代理模式，集群模式，真正公司層面用得好的很少，對于Redis掌控都很片面，導致實際項目中問題不少。

Redis要想用得好，需要整體掌握3個層面：

開發(fā)層面
架構層面
運維層面

其中架構與運維至關重要，多數中小型企業(yè)僅在開發(fā)層面滿足常用功能，數據規(guī)模稍微大些，業(yè)務復雜度高些，就容易出現各種架構與運維問題。本文主旨是探討Redis監(jiān)控體系，目前業(yè)界當然也有很多成熟的產品，但個人覺得都很常規(guī)，只做到一些粗粒度的監(jiān)控，沒有依據業(yè)務需求特點因地制宜去細化，從而反向的提供架構開發(fā)優(yōu)化方案。

本文內容將圍繞如下幾個問題展開討論：

Redis監(jiān)控體系有哪些方面？
構建Redis監(jiān)控體系我們做了哪些工作？
Redis監(jiān)控體系應該細化到什么程度？
為什么使用ELK構建監(jiān)控體系？

需求背景

項目描述

公司業(yè)務范圍屬于車聯網行業(yè)，有上百萬級的真實車主用戶，業(yè)務項目圍繞車主生活服務展開，為了提高系統(tǒng)性能，引入了Redis作為緩存中間件，具體描述如下：

部署架構采用Redis-Cluster模式；
后臺應用系統(tǒng)有幾十個，應用實例數超過二百個；
所有應用系統(tǒng)共用一套緩存集群；
集群節(jié)點數幾十個，加上容災備用環(huán)境，節(jié)點數量翻倍；
集群節(jié)點內存配置較高。

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

圖示：Redis集群架構與應用架構示意圖

問題描述

系統(tǒng)剛開始關于Redis的一切都很正常，隨著應用系統(tǒng)接入越來越多，應用系統(tǒng)子模塊接入也越來越多，開始出現一些問題，應用系統(tǒng)有感知，集群服務端也有感知，如下描述：

集群節(jié)點崩潰；
集群節(jié)點假死；
某些后端應用訪問集群響應特別慢。

其實問題的根源都是架構運維層面的欠缺，對于Redis集群服務端的運行監(jiān)控其實很好做，本身也提供了很多直接的命令方式，但只能看到服務端的一些常用指標信息，無法深入分析，治標不治本，對于Redis的內部運行一無所知，特別是對于業(yè)務應用如何使用Redis集群一無所知：

Redis集群使用的熱度問題？
哪些應用占用的Redis內存資源多？
哪些應用占用Redis訪問數最高？
哪些應用使用Redis類型不合理？
應用系統(tǒng)模塊使用Redis資源分布怎么樣？
應用使用Redis集群的熱點問題？

監(jiān)控體系

監(jiān)控的目的不僅僅是監(jiān)控Redis本身，而是為了更好的使用Redis。傳統(tǒng)的監(jiān)控一般比較單一化，沒有系統(tǒng)化，但對于Redis來說，個人認為至少包括：一是服務端，二是應用端，三是服務端與應用端聯合分析。

服務端：

服務端首先是操作系統(tǒng)層面，常用的CPU、內存、網絡IO，磁盤IO，服務端運行的進程信息等；
Redis運行進程信息，包括服務端運行信息、客戶端連接數、內存消耗、持久化信息、鍵值數量、主從同步、命令統(tǒng)計、集群信息等；
Redis運行日志，日志中會記錄一些重要的操作進程，如運行持久化時，可以有效幫助分析崩潰假死的程序。

應用端：

應用端、獲取應用端使用Redis的一些行為，具體哪些應用哪些模塊最占用 Redis資源、哪些應用哪些模塊最消耗Redis資源、哪些應用哪些模塊用法有誤等。

聯合分析：

聯合分析結合服務端的運行與應用端使用的行為，如：一些造成服務端突然阻塞的原因，可能是應用端設置了一個很大的緩存鍵值，或者使用的鍵值列表，數據量超大造成阻塞。

解決方案

為什么會選擇Elastic-Stack技術棧呢？

多數的第三方只監(jiān)控一些指標，對于明細日志還是采用ELK（Elasticsearch、Logstash、Kibana），也就是說用第三方監(jiān)控指標之后，還得再搭建一個ELK集群看明細日志。

再就是說Elastic-Stack技術棧整合的優(yōu)勢，指標也可以、日志文件也可以，從采集開始到存儲、到最終報表面板都整合得非常好，門檻很低。

下面詳細聊聊我們具體怎么做的，做了哪些工作？

服務端系統(tǒng)

Elastic-Stack家族有Metricbeat產品，支持系統(tǒng)層面的信息收集，簡單的配置下Elastic集群地址和系統(tǒng)指標模塊即可上線，并且會在Kibana中創(chuàng)建已有的系統(tǒng)監(jiān)控面板，非常簡單快速，一般運維就可以搞定。

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

圖示：metrcibeat示意圖

系統(tǒng)指標信息收集配置樣例如下：

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

服務端集群

收集Redis集群運行信息，業(yè)界通常做法都是采用Redis提供的info命令，定期收集。

info獲取的信息包括如下：

server：Redis服務器的一般信息
clients：客戶端的連接部分
memory：內存消耗相關信息
persistence：RDB和AOF相關信息
stats：一般統(tǒng)計
replication：主/從復制信息
cpu：統(tǒng)計CPU的消耗command
stats：Redis命令
統(tǒng)計cluster：Redis集群信息
keyspace：數據庫的相關統(tǒng)計

Elastic-Stack家族的Metricbeat產品也支持Redis模塊，也是采用info命令獲取的，但是有一些實現的局限性，如下描述：

Redis集群的主從關系信息，Metricbeats表達不出來；
Redis集群的一些統(tǒng)計信息，永遠是累計增加的，如命令數，如果要獲取命令數的波峰值，則無法得到；
Redis集群狀態(tài)信息變化，Metricbeats是無法動態(tài)的，如集群新增節(jié)點、下線節(jié)點等。

所以這里參考了CacheCloud產品（搜狐團隊開源），我們自定義設計開發(fā)了 Agent，定時從Redis集群采集信息，并在內部做一些統(tǒng)計數值的簡單計算，轉換成Json，寫入到本地文件，通過Logstash采集發(fā)送到Elasticsearch。

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

圖示：Redis服務端運行信息采集架構示意圖

服務端日志

Redis服務端運行日志采集很簡單，直接通過Elastic-Stack家族的Filebeat產品，其中有Redis模塊，配置一下Elastic服務端，日志文件地址即可。

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

圖示：服務端日志采集過程

Redis運行日志采集配置：

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

應用端

應用端信息采集是整個Redis監(jiān)控體系最重要的部分，也是實現最麻煩、鏈路最長的。首先是修改jedis（技術棧Java）源碼，增加埋點代碼，重新編譯并引用到應用項目中，應用端對于Redis集群的任何命令操作，都會被捕捉，并記錄下關鍵信息，之后寫入到本地文件。

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

圖示：Redis應用端行為采集架構圖

應用端采集的數據格式如下：

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

圖示：應用端采集的數據案例

jedis修改：

jedis改造記錄的信息如下：

r_host：訪問Redis集群的服務器地址與端口，其中某一臺ip:port；
r_cmd：執(zhí)行命令類型、如get、set、hget、hset等各種；
r_start：執(zhí)行命令開始時間；
r_cost：時間消耗；
r_size：獲取鍵值大小或者設置鍵值大小；
r_key：獲取鍵值名稱；
r_keys：鍵值的二級拆分，數組的長度不限制。這里有必要強調一下，所有應用系統(tǒng)共用的是一套集群，所以應用系統(tǒng)的鍵值都是有規(guī)范的，按照特殊符號分割，如："應用名稱_系統(tǒng)模塊_動態(tài)變量_xxx“，主要便于我們區(qū)分。

在jedis改造有幾處地方，如下：

類Connection.java文件，統(tǒng)計開始，記錄命令執(zhí)行開始時間；統(tǒng)計結束，記錄命令結束時間、時間消耗等，并寫入到日志流中；
類JedisClusterCommand文件，獲取鍵的地方key，方便之后分析應用鍵的行為。

在類Connection.java文件中有2處：

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

圖示：類Connection.java文件埋點代碼的地方

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

圖示：類Connection.java文件埋點代碼的地方

類JedisClusterCommand文件埋點代碼.java文件中有1處：

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

圖示：類JedisClusterCommand文件埋點代碼

logback修改：

應用端都會使用logback寫入日志文件，同時為了更加精準，應用端寫入日志時還需要獲取應用端的一些信息，如下：

app_ip：應用端部署在服務器上的IP地址；
app_host：應用端部署在服務器上的服務器名稱。

自定義一個Layout，自動獲取應用端的IP地址與服務器名稱：

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

圖示：自定義Logback的Layout

app配置：

app配置屬于最后收尾工作，主要是輸出埋點的日志數據，配置日志logback.xml文件即可：

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

圖示：配置應用端日志文件logback.xml

日志采集：

應用端日志采集采用Logstash，配置日志目錄，指向Elastic集群，這樣整體的監(jiān)控日志采集部分就結束了。

日志分析

Redis服務端的日志分析比較簡單，常規(guī)的一些指標而已，創(chuàng)建好關鍵的圖表，容易看出問題。重點討論應用端的日志分析。

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

圖示：應用端使用Redis一些行為圖表

ELK監(jiān)控體系上線之后，我們連續(xù)觀察分析兩周，獲得了一些監(jiān)控成果，如：

應用端部分鍵值太大，居然超過1MB，這種鍵值訪問一次消耗時間很大，會嚴重造成阻塞；
部分應用居然使用Redis當成數據庫使用；
有將List類型當成消息隊列使用，一次存取幾十萬的數據；
某些應用對于集群的操作頻次特別高，幾乎占用了一半以上；
還有很多，就不一一描述了。

后續(xù)方案

監(jiān)控體系相當于架構師的眼睛，有了這個，Redis方面的優(yōu)化改造方案就很好制定了：

應用端、誤用的使用全部要改掉；
服務端，按照應用的數據，進行一些拆分，拆分出一些專用的集群，特定為一些應用使用或者場景；
開發(fā)者，后續(xù)有新業(yè)務模塊需要接入Redis需要告知架構師們評審。

結語

監(jiān)控體系項目前后經歷過幾個月，服務端部分短期內就完成的，應用端是隨著應用發(fā)布逐步完成的。上線完成之后又經歷幾周的跟蹤分析，才確定下來整體的優(yōu)化方案。

監(jiān)控體系本身并不是為了監(jiān)控，而是發(fā)現問題、預見問題，最終提前解決問題，監(jiān)控做得好，下班下得早。

Redis集群是個好東西，完全掌握還是需要很長的時間，特別是架構、運維層面，如果沒有，請做好監(jiān)控。

> > > >

Q&A

Q1：請問單臺機器一般部署幾個Redis實例呢？

A：依據服務器資源設置：

1、CPU核數，Redis是單線程工作模型，實際運行并非進程只有一個線程，這個要搞清楚；

2、內存，一個Redis進程配置部分內存，需要至少對等的內存閑置，fork子進程使用，所以配置多實例要簡單計算下；

3、網絡，網絡IO超過網卡限制，會出問題。

Q2：直播中講到的大key，hash要改成什么？分片嗎？

A：1、比如，一個車子的基本信息，包括很多區(qū)塊部分，用hash確實非常好理解，但是過期之后整個hash都刪除了，其實很多信息是固定的，不用定時過期的；2、拆分成小的string更合適。

Q3：在客戶端打印key和value，如果是bigkey的話，qps有個1000，打印日志就占用很高的機器負載了吧？

A：1、打印的key，不包括value值內容，只有key以及value的大??；2、logback這些框架其實支持的性能相當不錯的，可以配置成異步的方式，如果還不夠，可以直接輸出到Kafka隊列等。

Q4：請問ES怎么部署MongoDB慢查詢報表平臺呢？

A：1、沒有深度使用過MongoDB；2、基于Elastic-Stack做慢查詢報表平臺思路與Redis一樣的，不管什么指標+日志全部都采集到ES完事。

Q5：info all執(zhí)行頻繁，會經常阻塞服務器，怎么平衡它的性能呢？

A：1、因為采集的是服務端運行的快照信息，定時采集，可以設定時間間隔大一些，比如5s；2、執(zhí)行info all，是在 java客戶端，可以修改jedis，在其中捕獲info命令，采集數據，觀察分析一段時間。

Q6：請問應用端jedis要怎么埋點呢？

A：1、原有jedis版本基于2.9，在2個類中修改埋點，參考了CacheCloud產品。最新版本的程序最近沒有關注，思路一樣；2、詳細見本文中貼出的代碼。

Q7：監(jiān)控的話，個人覺得放在K8S里面，不是最優(yōu)方案，您對這個怎么看？

A：1、本人未使用過K8S部署產品；2、Redis監(jiān)控體系，整體服務端，應用端，在Docker中也僅服務端可以，將metrcibeats這些集成在一起，但也有一些服務端監(jiān)指標計算，需要自己編寫Agent來完成，也是可以到Docker中去。應用端的就沒有辦法了，這個屬于前端的行為統(tǒng)計。

Q8：請問您的ES有多少節(jié)點？要用ssd盤嗎？

A：1、標準集群，起步3個實例節(jié)點；2、固態(tài)硬盤應用看場景，業(yè)務系統(tǒng)用用可以，日志系統(tǒng)一般不需要，即使需要也可以做冷熱隔離，少量的數據使用ssd，歷史的數據全部hdd足矣。

Q9：如果公司缺乏足夠的人力物力，是用ES、Prometheus還是Zabbix做監(jiān)控比較適合呢？能分別說一下它們各自最適用的情況嗎？

A：1、ES，Elastic-Stack，首選考慮，ES擅長的領域很多，應用系統(tǒng)查詢加速、大數據領域、監(jiān)控領域；2、其它兩個產品主要是做指標型的監(jiān)控，但實際項目中，僅僅指標監(jiān)控是不夠的，需要一個整體型的監(jiān)控體系，便于聯合分析。ES其實很多方面比時序數據庫做得更好，騰訊有資深專家做過詳細的ES與TSDB對比的測試，性能與功能都完全超過專門的時序數據庫。

特別推薦一個分享架構+算法的優(yōu)質內容，還沒關注的小伙伴，可以長按關注一下：

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

長按訂閱更多精彩▼

我為什么用ES做Redis監(jiān)控，不用Prometheus或Zabbix？

如有收獲，點個在看，誠摯感謝

免責聲明：本文內容由21ic獲得授權后發(fā)布，版權歸原作者所有，本平臺僅提供信息存儲服務。文章僅代表作者個人觀點，不代表本平臺立場，如有問題，請聯系我們，謝謝！

本站聲明：本文章由作者或相關機構授權發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內容真實性等。需要轉載請聯系該專欄作者，如若文章內容侵犯您的權益，請及時聯系本站刪除。

換一批

延伸閱讀

[通信先鋒]

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或將催生出更大的獨角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數字化轉型技術解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關鍵字： AWS AN BSP 數字化

[美通社全球TMT]

人工智能驅動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字：汽車人工智能智能驅動 BSP

[美通社全球TMT]

從容應對未知風險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務中斷的風險，如企業(yè)系統(tǒng)復雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性，提升韌性，成...

關鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復蘇！騰訊、網易等巨頭縮減在日本投資

8月30日消息，據媒體報道，騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術

8月28日消息，今天上午，2024中國國際大數據產業(yè)博覽會開幕式在貴陽舉行，華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字：華為 12nm EDA 半導體

[通信先鋒]

華為張平安：數字世界話語權最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數據產業(yè)博覽會上，華為常務董事、華為云CEO張平安發(fā)表演講稱，數字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務公布2024年中期業(yè)績

要點：有效應對環(huán)境變化，經營業(yè)績穩(wěn)中有升落實提質增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務引領增長以科技創(chuàng)新為引領，提升企業(yè)核心競爭力堅持高質量發(fā)展策略，塑強核心競爭優(yōu)勢...

關鍵字：通信 BSP 電信運營商數字經濟

[美通社全球TMT]

NVI技術創(chuàng)新聯盟成立！自主生態(tài)將帶動產業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術學會聯合牽頭組建的NVI技術創(chuàng)新聯盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。活動現場 NVI技術創(chuàng)新聯...

關鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動力與長三角投資達成戰(zhàn)略合作共謀數字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯合招商會上，軟通動力信息技術（集團）股份有限公司（以下簡稱"軟通動力"）與長三角投資（上海）有限...

關鍵字： BSP 信息技術

關閉

關閉

<td id="raruw"></td>