1. 整體流程概覽
當(dāng)一臺(tái)計(jì)算機(jī)通過(guò)以太網(wǎng)接收一個(gè)UDP數(shù)據(jù)包時(shí),會(huì)經(jīng)歷以下步驟:
1.物理層:處理電信號(hào)或光信號(hào),將其轉(zhuǎn)換為數(shù)字信號(hào)(比特流)。
2.數(shù)據(jù)鏈路層:將比特流組裝成幀(Frame),進(jìn)行CRC校驗(yàn),檢查MAC地址。
3.網(wǎng)絡(luò)層:解析IP數(shù)據(jù)包,檢查目的IP地址是否為本機(jī)IP,如果是則傳遞給傳輸層。
4.傳輸層:解析UDP頭部,獲取目的端口,根據(jù)端口找到對(duì)應(yīng)的Socket,并將數(shù)據(jù)放入該Socket的接收隊(duì)列。
5.應(yīng)用層:應(yīng)用程序通過(guò)Socket API(如`recvfrom`)從接收隊(duì)列中讀取數(shù)據(jù)。
2. 接收隊(duì)列的原理
接收隊(duì)列的位置:接收隊(duì)列位于操作系統(tǒng)內(nèi)核中,每個(gè)Socket都有一個(gè)獨(dú)立的接收隊(duì)列(對(duì)于UDP Socket)。
接收隊(duì)列的作用:當(dāng)數(shù)據(jù)包到達(dá)的速度快于應(yīng)用程序處理的速度時(shí),接收隊(duì)列可以暫時(shí)存儲(chǔ)數(shù)據(jù)包,避免丟包;內(nèi)核網(wǎng)絡(luò)協(xié)議棧處理數(shù)據(jù)包與應(yīng)用程序讀取數(shù)據(jù)包是異步的,接收隊(duì)列作為兩者之間的緩沖區(qū)。
接收隊(duì)列的工作流程:網(wǎng)卡通過(guò)DMA(直接內(nèi)存訪問(wèn))將數(shù)據(jù)包寫入內(nèi)核預(yù)先分配好的內(nèi)存區(qū)域(稱為環(huán)形緩沖區(qū),ring buffer);網(wǎng)卡觸發(fā)硬中斷,CPU執(zhí)行中斷處理程序,將數(shù)據(jù)包從網(wǎng)卡緩沖區(qū)轉(zhuǎn)移到內(nèi)核協(xié)議棧的輸入隊(duì)列(input queue);為了避免頻繁中斷導(dǎo)致CPU過(guò)載,現(xiàn)代網(wǎng)卡使用NAPI(New API)機(jī)制,在高速網(wǎng)絡(luò)環(huán)境下,采用輪詢(poll)方式處理多個(gè)數(shù)據(jù)包;在軟中斷(如NET_RX_SOFTIRQ)中,內(nèi)核從輸入隊(duì)列中取出數(shù)據(jù)包,進(jìn)行網(wǎng)絡(luò)層(IP)和傳輸層(UDP)的處理;檢查UDP數(shù)據(jù)包的目的端口,找到對(duì)應(yīng)的Socket。 將數(shù)據(jù)包(包括UDP頭部和負(fù)載數(shù)據(jù))放入該Socket的接收隊(duì)列。如果接收隊(duì)列已滿,則丟棄新到的數(shù)據(jù)包(UDP本身不保證可靠傳輸);如果應(yīng)用程序因?yàn)榈却龜?shù)據(jù)而阻塞(例如調(diào)用了阻塞的`recvfrom`),則內(nèi)核會(huì)將其喚醒。如果應(yīng)用程序使用I/O多路復(fù)用(如epoll)或非阻塞I/O,則通過(guò)相應(yīng)機(jī)制通知應(yīng)用程序。
接收隊(duì)列的管理
數(shù)據(jù)結(jié)構(gòu):通常是一個(gè)先進(jìn)先出(FIFO)的隊(duì)列,由內(nèi)核維護(hù)。在Linux中,每個(gè)Socket的接收隊(duì)列是一個(gè)sk_buff鏈表(即socket buffer)。
隊(duì)列大?。嚎梢酝ㄟ^(guò)系統(tǒng)調(diào)用設(shè)置(例如,在Linux中使用`setsockopt`設(shè)置`SO_RCVBUF`選項(xiàng))。但實(shí)際大小會(huì)略大于設(shè)置的值,因?yàn)閮?nèi)核會(huì)進(jìn)行一定的調(diào)整(包括考慮sk_buff的開銷)。
滿隊(duì)列的處理:當(dāng)接收隊(duì)列滿時(shí),新到的數(shù)據(jù)包會(huì)被丟棄,不會(huì)通知發(fā)送方(UDP特性)。應(yīng)用程序可以通過(guò)增加接收緩沖區(qū)大小或加快讀取速度來(lái)減少丟包。
3. 應(yīng)用程序讀取數(shù)據(jù)
當(dāng)應(yīng)用程序調(diào)用`recvfrom`(或類似函數(shù))時(shí),內(nèi)核從Socket的接收隊(duì)列中取出一個(gè)數(shù)據(jù)包(如果隊(duì)列為空,則阻塞或返回錯(cuò)誤,取決于Socket是否阻塞)。取出的數(shù)據(jù)包包含源IP地址和源端口等信息,應(yīng)用程序可以據(jù)此知道數(shù)據(jù)包的來(lái)源。