www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 智能硬件 > 智能硬件
[導(dǎo)讀] 在網(wǎng)頁過濾技術(shù)中,URL 過濾是普遍采用的過濾方式,因為其設(shè)計實現(xiàn)非常簡單,速度快、效率高;但是互聯(lián)網(wǎng)是動態(tài)的,每天有數(shù)以萬計的新的網(wǎng)頁出現(xiàn),URL 名單的更新速度往往跟不上;如果單純的采用URL 過濾,會造成過

 在網(wǎng)頁過濾技術(shù)中,URL 過濾是普遍采用的過濾方式,因為其設(shè)計實現(xiàn)非常簡單,速度快、效率高;但是互聯(lián)網(wǎng)是動態(tài)的,每天有數(shù)以萬計的新的網(wǎng)頁出現(xiàn),URL 名單的更新速度往往跟不上;如果單純的采用URL 過濾,會造成過濾的遺漏

  內(nèi)容過濾能夠?qū)崿F(xiàn)實時的網(wǎng)頁內(nèi)容防護,過濾比較準確,但是因為內(nèi)容過濾過程比較復(fù)雜,處理量如果過大,會造成用戶上網(wǎng)的明顯延遲。

  設(shè)計的方法是基于網(wǎng)絡(luò)層的網(wǎng)頁過濾方法,在網(wǎng)絡(luò)設(shè)備上實現(xiàn)對網(wǎng)頁的過濾。采用URL 過濾與內(nèi)容過濾相結(jié)合的方式,取安全與性能的折中。

  1 網(wǎng)頁過濾總體框架

  一臺主機要訪問Web 服務(wù)器,首先與Web 服務(wù)器進行三次握手,建立TCP 連接;然后向Web 服務(wù)器發(fā)送請求報文,其中包含用戶訪問的URL,Web 服務(wù)器在收到請求報文后,會發(fā)送應(yīng)答報文給客戶主機,因此過濾流程框架可按如下設(shè)計:

 ?、僭诰W(wǎng)絡(luò)設(shè)備中*用戶的數(shù)據(jù)包,檢測到HTTP 請求報文[3],則分析該報文中嵌入的網(wǎng)頁地址信息(即URL),提取出URL 信息,對其進行在黑白名單中進行匹配分析,根據(jù)匹配結(jié)果給予是否通過;②內(nèi)容過濾采用“第一次放過”的策略,即第一次對未知URL 的返回報文僅做內(nèi)容檢查。收集服務(wù)器返回的HTTP響應(yīng)報文,提取出應(yīng)用層信息,組成完整的HTML 文檔,進行內(nèi)容過濾,根據(jù)判定結(jié)果進行相應(yīng)的操作,整體過濾步驟如圖1 所示。


 

圖1 過濾模型

  2 URL 過濾

  2.1 相關(guān)定義

  白(黑)名單:在該名單中的URL,必定是合(非)法的地址信息;未在該名單中的網(wǎng)址的合法性未知。

  2.2 黑白名單機制的設(shè)計

  URL 過濾框架的設(shè)計是基于兩個事實:

  ①因特網(wǎng)統(tǒng)計表明,超過80%的用戶經(jīng)常訪問的是20%的網(wǎng)頁內(nèi)容;②大多數(shù)用戶在多數(shù)時間內(nèi)訪問的是合法信息的網(wǎng)頁。

  基于上述事實一,設(shè)計白名單時,僅存放經(jīng)常訪問的合法網(wǎng)站地址信息。這樣設(shè)計可以保證在進行URL 匹配時,能夠快速高效地判斷該網(wǎng)頁地址是否在高頻白名單中。對于一段時間內(nèi)訪問頻率不高的網(wǎng)頁,采用老化機制將其從名單中移除。

  基于上述事實二,設(shè)計將URL 白名單放在黑名單之前,若采用黑名單在前的方式,將會浪費大量時間去查找黑名單,而在大多數(shù)時間內(nèi),這些查找是不必要的。

  2.3 URL 過濾

  URL 過濾過程有:

 ?、贆z測通過網(wǎng)絡(luò)設(shè)備的報文,發(fā)現(xiàn)是HTTP 的GET 方法請求報文,提取其中攜帶的URL 信息,若與高頻名單中的條目匹配,表示該URL 為合法,給予通過,并將該條目的統(tǒng)計計數(shù)加1;②若在白名單中沒有匹配,則繼續(xù)和黑名單中的條目進行匹配。如果匹配成功,則斷開該TCP 鏈接,并且該匹配條目的統(tǒng)計計數(shù)加1;③若匹配失敗,則進行內(nèi)容,根據(jù)內(nèi)容過濾的結(jié)果將URL添加到相應(yīng)名單中。

  2.4 黑白名單老化機制

  黑白名單老化機制步驟如下:

 ?、儆嬎忝麊沃蠻RL 條目訪問次數(shù)的平均值M,計算公式如公式1:


 

  其中n 為表中的URL 條目數(shù),mi 為第i 個條目的統(tǒng)計計數(shù)值;②將老化閾值設(shè)為該平均值;③遍歷所有的URL 條目,檢查每個URL 條目的統(tǒng)計計數(shù),若高于老化閾值,則將其保留在名單中,并且將統(tǒng)計計數(shù)值0,如果低于老化閾值,則將其剔除。

  3 內(nèi)容過濾

  3.1 響應(yīng)報文的獲取與重組

  由于網(wǎng)絡(luò)的復(fù)雜性,返回的HTTP 響應(yīng)報文可能不是有序的到達網(wǎng)絡(luò)設(shè)備的,因此在網(wǎng)絡(luò)設(shè)備上需要對到達的響應(yīng)報文進行有序的重組。根據(jù)請求報文的五元組信息,收集該請求對應(yīng)的HTTP 響應(yīng)報文;由于可能亂序,根據(jù)ACK 字段和Seq 字段對報文進行排序重組。在重組中建立的數(shù)據(jù)結(jié)構(gòu)圖2 所示。


 

圖2 重組使用的數(shù)據(jù)結(jié)構(gòu)

  3.2 文本的表示

  目前常用的文本表示模型有許多種,常用的有:布爾邏輯模型、概率模型和向量空間模型等。在向量空間模型,文本內(nèi)容被形式化為多維空間中的一個點,把對文本內(nèi)容的處理簡化為向量空間中向量運算,使問題的復(fù)雜性大為降低。

  權(quán)重的計算既可用規(guī)則的方法手工完成,又可通過統(tǒng)計的方法自動完成,便于融合統(tǒng)計和規(guī)則兩種方法。

  向量空間模型用項的向量空間來表示文檔信息,項是指用來表示文檔內(nèi)容特征的基本語言單位(字、詞、詞組或短語等),也稱為特征詞,文檔可以用項的*來表示。一個網(wǎng)頁可以由特征以及其權(quán)值表示,如下:


 

  其中 xi 為文本向量空間中的一個特征, w i 為該特征的權(quán)值。

  3.3 特征的選取

  一個文本攜帶大量的信息,基于計算的復(fù)雜性考慮,只能在文本信息中提取出其中一些比較重要的特征;并且對于實際的性能要求,文本中的關(guān)鍵信息足以反映一個文本特征。像一個文本中出現(xiàn)的“的”、“有”等一些詞是一些通用詞,不能體現(xiàn)某些文本的特征,因此需要事先對文本進行預(yù)處理,去除掉這些詞。

  3.4 TF-IDF 權(quán)值計算

  TF-IDF 計算公式:


 

  其中TF(x,d)表示特征x在網(wǎng)頁d中出現(xiàn)的頻率,IDF(x)表示為,N是總共的訓(xùn)練樣本數(shù),df (x)為包含特征x 的樣本數(shù)。

  3.5 改進的權(quán)值計算公式

  從TF-IDF 計算公式可以看出,TF-IDF 計算公式是將一個樣本簡單的分解為若干特征,只是針對文本的內(nèi)容,沒有從文本的結(jié)構(gòu)組成上考慮各特征的權(quán)值。

  實際上,在一個HTML 結(jié)構(gòu)文檔中,在之間,,以及一些其他的標簽之間出現(xiàn)的特征,相對于其他普通的正文,具有更重要的意義,因此對這些標簽之間的特征要給予比較大的權(quán)值,而對于其他普通的正文給予權(quán)重比較小??紤]到HTML 的這種結(jié)構(gòu)化特性,對TF-IDF 權(quán)值計算進行一些改進。

  以下是設(shè)計的一個簡單的位置——權(quán)值等級對應(yīng)表,權(quán)值的選擇可由實際情況具體而定。

表1 特征位置與權(quán)值對應(yīng)表


 

  一個詞在一個網(wǎng)頁中出現(xiàn)的頻率越高,表示該詞在這個網(wǎng)頁中更重要。根據(jù)IDF,一個詞的重要與包含它的網(wǎng)頁數(shù)量成反比。一個特征x 在第i 個等級中的頻率如下表示:


 

  其中Nxi  表示某個詞x 出現(xiàn)在等級i 中間的次數(shù), Nx  表示詞x 出現(xiàn)在該網(wǎng)頁中總的次數(shù)。

  權(quán)值的計算:


 

  其中Wi  為特征等級為i 時,對應(yīng)的加權(quán)系數(shù)。

  3.6 KNN 算法

  K-近鄰法的原理:在訓(xùn)練樣本集中,找出與待分類的網(wǎng)頁相鄰最近的K 個訓(xùn)練樣本,找出K 個近鄰中樣本數(shù)最多的類別c,就判斷待分類樣本為c 類。這里采用相似度作為計算距離的依據(jù),相似的計算根據(jù)兩個樣本之間的夾角的余弦值來判斷。


 

  根據(jù)此公式,計算出待測樣本x 與所有訓(xùn)練樣本的距離,從而找出與x 距離最近的K 個訓(xùn)練樣本,根據(jù)這K 個樣本的所屬類別,確定待測樣本x 的所屬類別。

  3.7 內(nèi)容過濾流程

  為了不給用戶造成比較明顯的延遲,采用“第一次放過”的策略。先并不攔截該響應(yīng)報文,只是復(fù)制一份應(yīng)用層信息,在整個響應(yīng)報文傳輸完成之后,對復(fù)制的一份完整報文進行內(nèi)容過濾操作;如果判斷報文內(nèi)容是非法的,則將對應(yīng)的請求報文的URL 信息添加到黑名單中,如果檢查認為是合法的,則允許該連接持續(xù),并將URL 信息添加到白名單中。

  4 結(jié)語

  通過實驗分析,在過濾時間上,URL 過濾階段白名單匹配速度提高了53%,在黑名單的匹配中,速度提高了80%。在內(nèi)容過濾階段,由于采用的“第一次放過”策略,不會給用戶帶來延遲。既能在一定程度滿足網(wǎng)絡(luò)延遲的要求,又能改善用戶的互聯(lián)網(wǎng)環(huán)境。但仍然存在一些需要改進的地方:該過濾系統(tǒng)是部署在網(wǎng)絡(luò)設(shè)備之上,網(wǎng)絡(luò)設(shè)備作為網(wǎng)絡(luò)節(jié)點,擔(dān)負著繁重的數(shù)據(jù)交換任務(wù),考慮到這些,沒有對返回的報文進行實時的分析,而是采用“第一次放過”的過濾策略;此外,采用向量空間模型來表示,其缺點在于特征項之間線性無關(guān)的假設(shè),因此可以考慮特征項之間的關(guān)聯(lián)性等,對該文本表示模型進行更加精確的表示。



 

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動電源

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下,工業(yè)電機作為核心動力設(shè)備,其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動勢抑制與過流保護是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié),集成化方案的設(shè)計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機 驅(qū)動電源

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而,在實際應(yīng)用中,LED 驅(qū)動電源易損壞的問題卻十分常見,不僅增加了維護成本,還影響了用戶體驗。要解決這一問題,需從設(shè)計、生...

關(guān)鍵字: 驅(qū)動電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動電源的公式,電感內(nèi)電流波動大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計 驅(qū)動電源

電動汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字: 電動汽車 新能源 驅(qū)動電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步,高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動電源 LED

LED通用照明設(shè)計工程師會遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動電源的電磁干擾(EMI)問題成為了一個不可忽視的挑戰(zhàn)。電磁干擾不僅會影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機重量也有所下降,所以,現(xiàn)在的LED驅(qū)動電源

關(guān)鍵字: LED 驅(qū)動電源 開關(guān)電源

LED驅(qū)動電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動電源
關(guān)閉