支持百萬級TPS，Kafka是怎么做到的？答案藏在這10張圖里

時間：2020-11-23 16:18:22

關鍵字：軟件嵌入式

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]談到大數(shù)據(jù)傳輸都會想到 Kafka，Kafka 號稱大數(shù)據(jù)的殺手锏，在業(yè)界有很多成熟的應用場景并且被主流公司認可。這款為大數(shù)據(jù)而生的消息中間件，以其百萬級TPS的吞吐量名聲大噪，迅速成為大數(shù)據(jù)領域的寵兒，在數(shù)據(jù)采集、傳輸、存儲的過程中發(fā)揮著舉足輕重的作用。

支持百萬級TPS，Kafka是怎么做到的？答案藏在這10張圖里

談到大數(shù)據(jù)傳輸都會想到 Kafka，Kafka 號稱大數(shù)據(jù)的殺手锏，在業(yè)界有很多成熟的應用場景并且被主流公司認可。這款為大數(shù)據(jù)而生的消息中間件，以其百萬級TPS的吞吐量名聲大噪，迅速成為大數(shù)據(jù)領域的寵兒，在數(shù)據(jù)采集、傳輸、存儲的過程中發(fā)揮著舉足輕重的作用。

在業(yè)界已經(jīng)有很多成熟的消息中間件如：RabbitMQ, RocketMQ, ActiveMQ, ZeroMQ，為什么 Kafka 在眾多的敵手中依然能有一席之地，當然靠的是其強悍的吞吐量。下面帶領大家來揭秘。

Kafka 如何做到支持百萬級 TPS ？

先用一張思維導圖直接告訴你答案：

支持百萬級TPS，Kafka是怎么做到的？答案藏在這10張圖里 — Kafka 支持百萬TPS的秘密

順序讀寫磁盤

生產(chǎn)者寫入數(shù)據(jù)和消費者讀取數(shù)據(jù)都是順序讀寫的，先來一張圖直觀感受一下順序讀寫和隨機讀寫的速度：

從圖中可以看出傳統(tǒng)硬盤或者SSD的順序讀寫甚至超過了內存的隨機讀寫，當然與內存的順序讀寫對比差距還是很大。

所以Kafka選擇順序讀寫磁盤也不足為奇了。

下面以傳統(tǒng)機械磁盤為例詳細介紹一下什么是順序讀寫和隨機讀寫。

盤片和盤面：一塊硬盤一般有多塊盤片，盤片分為上下兩面，其中有效面稱為盤面，一般上下都有效，也就是說：盤面數(shù) = 盤片數(shù) * 2。

磁頭：磁頭切換磁道讀寫數(shù)據(jù)時是通過機械設備實現(xiàn)的，一般速度較慢；而磁頭切換盤面讀寫數(shù)據(jù)是通過電子設備實現(xiàn)的，一般速度較快，因此磁頭一般是先讀寫完柱面后才開始尋道的(不用切換磁道)，這樣磁盤讀寫效率更快。

磁道：磁道就是以中間軸為圓心的圓環(huán)，一個盤面有多個磁道，磁道之間有間隙，磁道也就是磁盤存儲數(shù)據(jù)的介質。磁道上布有一層磁介質，通過磁頭可以使磁介質的極性轉換為數(shù)據(jù)信號，即磁盤的讀，磁盤寫剛好與之相反。

柱面：磁盤中不同盤面中半徑相同的磁道組成的，也就是說柱面總數(shù) = 某個盤面的磁道數(shù)。

扇區(qū)：單個磁道就是多個弧形扇區(qū)組成的，盤面上的每個磁道擁有的扇區(qū)數(shù)量是相等。扇區(qū)是最小存儲單元，一般扇區(qū)大小為512bytes。

如果系統(tǒng)每次只讀取一個扇區(qū)，那恐怕效率太低了，所以出現(xiàn)了block（塊）的概念。文件讀取的最小單位是block，根據(jù)不同操作系統(tǒng)一個block一般由多個扇區(qū)組成。

有了磁盤的背景知識我們就可以很容易理解順序讀寫和隨機讀寫了。

插播維基百科定義：

順序讀寫：是一種按記錄的邏輯順序進行讀、寫操作的存取方法，即按照信息在存儲器中的實際位置所決定的順序使用信息。?

隨機讀寫：指的是當存儲器中的消息被讀取或寫入時，所需要的時間與這段信息所在的位置無關。

當讀取第一個block時，要經(jīng)歷尋道、旋轉延遲、傳輸三個步驟才能讀取完這個block的數(shù)據(jù)。而對于下一個block，如果它在磁盤的其他任意位置，訪問它會同樣經(jīng)歷尋道、旋轉、延時、傳輸才能讀取完這個block的數(shù)據(jù)，我們把這種方式叫做隨機讀寫。但是如果這個block的起始扇區(qū)剛好在剛才訪問的block的后面，磁頭就能立刻遇到，不需等待直接傳輸，這種就叫順序讀寫。

好，我們再回到 Kafka，詳細介紹Kafka如何實現(xiàn)順序讀寫入數(shù)據(jù)。

Kafka 寫入數(shù)據(jù)是順序的，下面每一個Partition 都可以當做一個文件，每次接收到新數(shù)據(jù)后Kafka會把數(shù)據(jù)插入到文件末尾，虛框部分代表文件尾。

這種方法有一個問題就是刪除數(shù)據(jù)不方便，所以 Kafka 一般會把所有的數(shù)據(jù)都保留下來，每個消費者（Consumer）對每個Topic都有一個 offset 用來記錄讀取進度或者叫坐標。

Memory Mapped Files(MMAP)

在文章開頭我們看到硬盤的順序讀寫基本能與內存隨機讀寫速度媲美，但是與內存順序讀寫相比還是太慢了，那 Kafka 如果有追求想進一步提升效率怎么辦？可以使用現(xiàn)代操作系統(tǒng)分頁存儲來充分利用內存提高I/O效率，這也是下面要介紹的 MMAP 技術。

MMAP也就是內存映射文件，在64位操作系統(tǒng)中一般可以表示 20G 的數(shù)據(jù)文件，它的工作原理是直接利用操作系統(tǒng)的 Page 來實現(xiàn)文件到物理內存的直接映射，完成映射之后對物理內存的操作會被同步到硬盤上。

通過MMAP技術進程可以像讀寫硬盤一樣讀寫內存（邏輯內存），不必關心內存的大小，因為有虛擬內存兜底。這種方式可以獲取很大的I/O提升，省去了用戶空間到內核空間復制的開銷。

也有一個很明顯的缺陷，寫到MMAP中的數(shù)據(jù)并沒有被真正的寫到硬盤，操作系統(tǒng)會在程序主動調用 flush 的時候才把數(shù)據(jù)真正的寫到硬盤。

Kafka提供了一個參數(shù)：producer.type 來控制是不是主動 flush，如果Kafka寫入到MMAP之后就立即flush然后再返回Producer叫同步(sync)；寫入MMAP之后立即返回Producer不調用flush叫異步(async)。

Zero Copy（零拷貝）

Kafka 另外一個黑技術就是使用了零拷貝，要想深刻理解零拷貝必須得知道什么是DMA。

什么是DMA?

眾所周知 CPU 的速度與磁盤 IO 的速度比起來相差幾個數(shù)量級，可以用烏龜和火箭做比喻。

一般來說 IO 操作都是由 CPU 發(fā)出指令，然后等待 IO 設備完成操作后返回，那CPU會有大量的時間都在等待IO操作。

但是CPU 的等待在很多時候并沒有太多的實際意義，我們對于 I/O 設備的大量操作其實都只是把內存里面的數(shù)據(jù)傳輸?shù)?I/O 設備而已。比如進行大文件復制，如果所有數(shù)據(jù)都要經(jīng)過 CPU，實在是有點兒太浪費時間了。

基于此就有了DMA技術，翻譯過來也就是直接內存訪問（Direct Memory Access），有了這個可以減少 CPU 的等待時間。

Kafka 零拷貝原理

如果不使用零拷貝技術，消費者（consumer）從Kafka消費數(shù)據(jù)，Kafka從磁盤讀數(shù)據(jù)然后發(fā)送到網(wǎng)絡上去，數(shù)據(jù)一共發(fā)生了四次傳輸?shù)倪^程。其中兩次是 DMA 的傳輸，另外兩次，則是通過 CPU 控制的傳輸。

第一次傳輸：從硬盤上將數(shù)據(jù)讀到操作系統(tǒng)內核的緩沖區(qū)里，這個傳輸是通過 DMA 搬運的。

第二次傳輸：從內核緩沖區(qū)里面的數(shù)據(jù)復制到分配的內存里面，這個傳輸是通過 CPU 搬運的。

第三次傳輸：從分配的內存里面再寫到操作系統(tǒng)的 Socket 的緩沖區(qū)里面去，這個傳輸是由 CPU 搬運的。

第四次傳輸：從 Socket 的緩沖區(qū)里面寫到網(wǎng)卡的緩沖區(qū)里面去，這個傳輸是通過 DMA 搬運的。

實際上在kafka中只進行了兩次數(shù)據(jù)傳輸，如下圖：

第一次傳輸：通過 DMA從硬盤直接讀到操作系統(tǒng)內核的讀緩沖區(qū)里面。

第二次傳輸：根據(jù) Socket 的描述符信息直接從讀緩沖區(qū)里面寫入到網(wǎng)卡的緩沖區(qū)里面。

我們可以看到同一份數(shù)據(jù)的傳輸次數(shù)從四次變成了兩次，并且沒有通過 CPU 來進行數(shù)據(jù)搬運，所有的數(shù)據(jù)都是通過 DMA 來進行傳輸?shù)?。沒有在內存層面去復制（Copy）數(shù)據(jù)，這個方法稱之為零拷貝（Zero-Copy）。

無論傳輸數(shù)據(jù)量的大小，傳輸同樣的數(shù)據(jù)使用了零拷貝能夠縮短 65% 的時間，大幅度提升了機器傳輸數(shù)據(jù)的吞吐量，這也是Kafka能夠支持百萬TPS的一個重要原因。

Batch Data（數(shù)據(jù)批量處理）

當消費者（consumer）需要消費數(shù)據(jù)時，首先想到的是消費者需要一條，kafka發(fā)送一條，消費者再要一條kafka再發(fā)送一條。但實際上 Kafka 不是這樣做的，Kafka 耍小聰明了。

Kafka 把所有的消息都存放在一個一個的文件中，當消費者需要數(shù)據(jù)的時候 Kafka 直接把文件發(fā)送給消費者。比如說100萬條消息放在一個文件中可能是10M的數(shù)據(jù)量，如果消費者和Kafka之間網(wǎng)絡良好，10MB大概1秒就能發(fā)送完，既100萬TPS，Kafka每秒處理了10萬條消息。

看到這里你可以有疑問了，消費者只需要一條消息啊，kafka把整個文件都發(fā)送過來了，文件里面剩余的消息怎么辦？不要忘了消費者可以通過offset記錄消費進度。

發(fā)送文件還有一個好處就是可以對文件進行批量壓縮，減少網(wǎng)絡IO損耗。