www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 嵌入式 > 嵌入式教程

摘 要: 針對已有增量分類算法只是作用于小規(guī)模數(shù)據(jù)集或者在集中式環(huán)境下進(jìn)行的缺點(diǎn),提出一種基于Hadoop云計(jì)算平臺(tái)的增量分類模型,以解決大規(guī)模數(shù)據(jù)集的增量分類。為了使云計(jì)算平臺(tái)可以自動(dòng)地對增量的訓(xùn)練樣本進(jìn)行處理,基于模塊化集成學(xué)習(xí)思想,設(shè)計(jì)相應(yīng)Map函數(shù)對不同時(shí)刻的增量樣本塊進(jìn)行訓(xùn)練,Reduce函數(shù)對不同時(shí)刻訓(xùn)練得到的分類器進(jìn)行集成,以實(shí)現(xiàn)云計(jì)算平臺(tái)上的增量學(xué)習(xí)。仿真實(shí)驗(yàn)證明了該方法的正確性和可行性。
關(guān)鍵詞: 增量分類;Hadoop;云計(jì)算

隨著信息技術(shù)和生物技術(shù)突飛猛進(jìn)的發(fā)展,科學(xué)研究和實(shí)際應(yīng)用中產(chǎn)生了海量數(shù)據(jù),并且這些數(shù)據(jù)每天都在增加,為了將每天產(chǎn)生的新數(shù)據(jù)納入到新的學(xué)習(xí)系統(tǒng),需要利用增量學(xué)習(xí)。增量學(xué)習(xí)比較接近人類自身的學(xué)習(xí)方式,可以漸進(jìn)地進(jìn)行知識(shí)的更新,修正和加強(qiáng)以前的知識(shí),使得更新后的知識(shí)能適應(yīng)更新后的數(shù)據(jù),而不必重新學(xué)習(xí)全部數(shù)據(jù),從而降低了對時(shí)間和空間的需求。模塊化是擴(kuò)展現(xiàn)有增量學(xué)習(xí)能力的有效方法之一[1],而集成學(xué)習(xí)(Ensemble Learning)一直是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)研究熱點(diǎn)[2-6],許多模塊化增量分類算法[7-9]正是基于二者提出的。
云計(jì)算(Cloud Computing)這一新名詞從2007年第3季度誕生起就在學(xué)術(shù)界和產(chǎn)業(yè)界引起了轟動(dòng),Google、IBM、百度、Yahoo等公司都開始進(jìn)行“云計(jì)算”的部署工作。云計(jì)算是分布式計(jì)算(Distributed Computing)、并行計(jì)算(Parallel Computing)和網(wǎng)格計(jì)算(Grid Computing)的發(fā)展與延伸。在云計(jì)算環(huán)境下,互聯(lián)網(wǎng)用戶只需要一個(gè)終端就可以享用非本地或遠(yuǎn)程服務(wù)集群提供的各種服務(wù)(包括計(jì)算、存儲(chǔ)等),真正實(shí)現(xiàn)了按需計(jì)算,有效地提高了云端各種軟硬件資源的利用效率。隨著云計(jì)算技術(shù)的日益成熟,云計(jì)算也為解決海量數(shù)據(jù)挖掘所面臨的問題提供了很好的基礎(chǔ)[10]。雖然在機(jī)器學(xué)習(xí)領(lǐng)域,對增量學(xué)習(xí)進(jìn)行了較深入的研究,但是在云計(jì)算環(huán)境下,還沒有相關(guān)文獻(xiàn)討論利用增量分類提高云計(jì)算環(huán)境下海量數(shù)據(jù)挖掘的效率問題。本文基于模塊化的集成學(xué)習(xí)思想,研究在開源云計(jì)算平臺(tái)Hadoop[11]上的增量分類方法。
1 Hadoop云平臺(tái)的體系結(jié)構(gòu)
在現(xiàn)有的云計(jì)算技術(shù)中, Apache軟件基金會(huì)(Apache Software Foundation) 組織下的開源項(xiàng)目Hadoop是一個(gè)很容易支持開發(fā)和并行處理大規(guī)模數(shù)據(jù)的分布式云計(jì)算平臺(tái),具有可擴(kuò)展、低成本、高效和可靠性等優(yōu)點(diǎn)。程序員可以使用Hadoop中的Streaming工具(Hadoop為簡化Map/Reduce的編寫,為讓不熟悉Java的程序員更容易在Hadoop上開發(fā)而提供的一個(gè)接口)使用任何語言編寫并運(yùn)行一個(gè)Map/Reduce作業(yè)。Hadoop項(xiàng)目包括多個(gè)子項(xiàng)目,但主要是由Hadoop分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)和映射/化簡引擎(Map/Reduce Engine)兩個(gè)主要的子項(xiàng)目構(gòu)成。
1.1 分布式文件系統(tǒng)HDFS
Hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(Hadoop Distribu-
tedFile System),簡稱HDFS。HDFS采用Master/Slave架構(gòu),一個(gè)HDFS集群由一個(gè)NameNode節(jié)點(diǎn)和若干DataNode節(jié)點(diǎn)組成。NameNode節(jié)點(diǎn)存儲(chǔ)著文件系統(tǒng)的元數(shù)據(jù),這些元數(shù)據(jù)包括文件系統(tǒng)的名字空間等,并負(fù)責(zé)管理文件的存儲(chǔ)等服務(wù),程序使用的實(shí)際數(shù)據(jù)并存放在DataNode中,Client是獲取分布式文件系統(tǒng)HDFS文件的應(yīng)用程序。圖1是HDFS結(jié)構(gòu)圖。
圖1中,Master主要負(fù)責(zé)NameNode及JobTracker的工作,JobTracker的主要職責(zé)是啟動(dòng)、跟蹤和調(diào)度各個(gè)Slave任務(wù)的執(zhí)行。還會(huì)有多臺(tái)Slave,每一臺(tái)Slave通常具有DataNode的功能并負(fù)責(zé)TaskTracker的工作。TaskTracker根據(jù)應(yīng)用要求來結(jié)合本地?cái)?shù)據(jù)執(zhí)行Map任務(wù)以及Reduce任務(wù)。

1.2 Map/Reduce分布式并行編程模型
Hadoop框架中采用了Google提出的云計(jì)算核心計(jì)算模式Map/Reduce,它是一種分布式計(jì)算模型,也是簡化的分布式編程模式[12]。Map/Reduce把運(yùn)行在大規(guī)模集群上的并行計(jì)算過程抽象成兩個(gè)函數(shù):Map和Reduce,其中,Map把任務(wù)分解成多個(gè)任務(wù),Reduce把分解后的多個(gè)任務(wù)處理結(jié)果匯總起來,得到最終結(jié)果。圖2介紹了用Map/Reduce處理數(shù)據(jù)的過程。一個(gè)Map/Reduce操作分為兩個(gè)階段:映射和化簡。

在映射階段(Map階段),Map/Reduce框架將用戶輸入的數(shù)據(jù)分割為N個(gè)片段,對應(yīng)N個(gè)Map任務(wù)。每一個(gè)Map的輸入是數(shù)據(jù)片段中的鍵值對<K1,V1>集合,Map操作會(huì)調(diào)用用戶定義的Map函數(shù),輸出一個(gè)中間態(tài)的鍵值對<K2,V2>。然后,按照中間態(tài)K2將輸出的數(shù)據(jù)進(jìn)行排序,形成<K2,list(V2)>元組,這樣可以使對應(yīng)于同一個(gè)鍵的所有值的數(shù)據(jù)都集合在一起。最后,按照K2的范圍將這些元組分割成M個(gè)片段,從而形成M個(gè)Rdeuce任務(wù)。
在化簡階段(Reduce階段),每一個(gè)Reduce操作的輸入是Map階段的輸出,即<K2,list(V2)>片段,Reduce操作調(diào)用用戶定義的Reduce函數(shù),生成用戶需要的結(jié)果<K3,V3>進(jìn)行輸出。
2 基于Map/Reduce的模塊化增量分類模型
基于Map/Reduce的增量分類模型,主要思想是Map函數(shù)對訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,得到基于不同時(shí)刻增量塊的分類器,Reduce函數(shù)利用Map訓(xùn)練好的分類器對測試樣本進(jìn)行預(yù)測,并且將不同時(shí)刻訓(xùn)練得到的分類器進(jìn)行集成,得到最終的分類結(jié)果。基于Map/Reduce的增量分類模型如圖3所示。當(dāng)t1時(shí)刻有海量的訓(xùn)練樣本到達(dá)時(shí),通過設(shè)置Map任務(wù)的個(gè)數(shù)使得云平臺(tái)自動(dòng)地對到達(dá)的海量樣本進(jìn)行劃分,每個(gè)Map的任務(wù)就是對基于劃分所得的樣本子集進(jìn)行訓(xùn)練得到一個(gè)基分類器。同一時(shí)刻的不同Map之間可以并行訓(xùn)練,從而得到t1時(shí)刻的增量分類系統(tǒng)。當(dāng)tT時(shí)刻的訓(xùn)練樣本到達(dá)以后,采取相同的步驟,得到tT時(shí)刻的不同基分類器,然后將這些分類器加入到tT-1時(shí)刻的增量分類系統(tǒng)以構(gòu)成tT時(shí)刻的增量分類系統(tǒng)。再采用Reduce函數(shù)將當(dāng)前增量分類系統(tǒng)里所有分類器進(jìn)行集成,集成方法可以采用投票法Majority Voting(MV)進(jìn)行。
2.1 Map過程
Map函數(shù)的主要功能就是建立不同時(shí)刻的增量分類系統(tǒng)。當(dāng)某一時(shí)刻有新的訓(xùn)練樣本到達(dá)時(shí),Map便從HDFS將其讀取。通過設(shè)置Map任務(wù)的個(gè)數(shù)使得云平臺(tái)自動(dòng)地對大規(guī)模的訓(xùn)練樣本進(jìn)行劃分,每一個(gè)Map任務(wù)完成基于一個(gè)劃分塊的分類訓(xùn)練,劃分后的不同塊可以并行訓(xùn)練,從而得到基于該時(shí)刻增量樣本集的不同分類器,然后將這些分類器加入上一時(shí)刻的增量分類系統(tǒng)以構(gòu)成當(dāng)前時(shí)刻的增量分類系統(tǒng)。Map函數(shù)偽代碼如下:


3 仿真實(shí)驗(yàn)

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: 驅(qū)動(dòng)電源

在工業(yè)自動(dòng)化蓬勃發(fā)展的當(dāng)下,工業(yè)電機(jī)作為核心動(dòng)力設(shè)備,其驅(qū)動(dòng)電源的性能直接關(guān)系到整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。其中,反電動(dòng)勢抑制與過流保護(hù)是驅(qū)動(dòng)電源設(shè)計(jì)中至關(guān)重要的兩個(gè)環(huán)節(jié),集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動(dòng)性能的關(guān)鍵。

關(guān)鍵字: 工業(yè)電機(jī) 驅(qū)動(dòng)電源

LED 驅(qū)動(dòng)電源作為 LED 照明系統(tǒng)的 “心臟”,其穩(wěn)定性直接決定了整個(gè)照明設(shè)備的使用壽命。然而,在實(shí)際應(yīng)用中,LED 驅(qū)動(dòng)電源易損壞的問題卻十分常見,不僅增加了維護(hù)成本,還影響了用戶體驗(yàn)。要解決這一問題,需從設(shè)計(jì)、生...

關(guān)鍵字: 驅(qū)動(dòng)電源 照明系統(tǒng) 散熱

根據(jù)LED驅(qū)動(dòng)電源的公式,電感內(nèi)電流波動(dòng)大小和電感值成反比,輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字: LED 設(shè)計(jì) 驅(qū)動(dòng)電源

電動(dòng)汽車(EV)作為新能源汽車的重要代表,正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動(dòng)汽車的核心技術(shù)之一是電機(jī)驅(qū)動(dòng)控制系統(tǒng),而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動(dòng)系統(tǒng)中的關(guān)鍵元件,其性能直接影響到電動(dòng)汽車的動(dòng)力性能和...

關(guān)鍵字: 電動(dòng)汽車 新能源 驅(qū)動(dòng)電源

在現(xiàn)代城市建設(shè)中,街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分,其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步,高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢逐漸取代傳統(tǒng)光源,成為大功率區(qū)域...

關(guān)鍵字: 發(fā)光二極管 驅(qū)動(dòng)電源 LED

LED通用照明設(shè)計(jì)工程師會(huì)遇到許多挑戰(zhàn),如功率密度、功率因數(shù)校正(PFC)、空間受限和可靠性等。

關(guān)鍵字: LED 驅(qū)動(dòng)電源 功率因數(shù)校正

在LED照明技術(shù)日益普及的今天,LED驅(qū)動(dòng)電源的電磁干擾(EMI)問題成為了一個(gè)不可忽視的挑戰(zhàn)。電磁干擾不僅會(huì)影響LED燈具的正常工作,還可能對周圍電子設(shè)備造成不利影響,甚至引發(fā)系統(tǒng)故障。因此,采取有效的硬件措施來解決L...

關(guān)鍵字: LED照明技術(shù) 電磁干擾 驅(qū)動(dòng)電源

開關(guān)電源具有效率高的特性,而且開關(guān)電源的變壓器體積比串聯(lián)穩(wěn)壓型電源的要小得多,電源電路比較整潔,整機(jī)重量也有所下降,所以,現(xiàn)在的LED驅(qū)動(dòng)電源

關(guān)鍵字: LED 驅(qū)動(dòng)電源 開關(guān)電源

LED驅(qū)動(dòng)電源是把電源供應(yīng)轉(zhuǎn)換為特定的電壓電流以驅(qū)動(dòng)LED發(fā)光的電壓轉(zhuǎn)換器,通常情況下:LED驅(qū)動(dòng)電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字: LED 隧道燈 驅(qū)動(dòng)電源
關(guān)閉