掃描二維碼
隨時(shí)隨地手機(jī)看文章
2 數(shù)據(jù)挖掘技術(shù)的基本概念和方法
數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中識別出存在于數(shù)據(jù)庫中有效的、新穎的、具有潛在價(jià)值的、最終可理解的模式的非平凡知識的過程。它利用各種分析方法和分析工具在大規(guī)模的海量數(shù)據(jù)中建立模型和發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系。數(shù)據(jù)挖掘的技術(shù)很多,相應(yīng)的實(shí)現(xiàn)方法也很多。一般包括下述幾種方法:決策樹方法,神經(jīng)網(wǎng)絡(luò)方法,概念樹方法,粗糙方法,遺傳算法,公式發(fā)現(xiàn),模糊論方法,統(tǒng)計(jì)學(xué)方法.可視化技術(shù),貝葉斯網(wǎng)絡(luò)等。在不同的領(lǐng)域,針對需要解決的具體問題,需要完成的挖掘主題,采用不同的數(shù)據(jù)挖掘技術(shù)或方法。
3 交通管理信息數(shù)據(jù)挖掘方法
3.1 需求理解
涉及到交通管理信息積累的原始數(shù)據(jù)很多,存在于不同的數(shù)據(jù)庫中,甚至有些與交通安全相關(guān)的某些數(shù)據(jù)跨行業(yè)保存在其他行業(yè)的數(shù)據(jù)庫中,如氣象部門記錄的天氣氣象數(shù)據(jù)。這些數(shù)據(jù)庫大多是事務(wù)性的數(shù)據(jù)庫,其中的數(shù)據(jù)各自獨(dú)立、互不相關(guān)。數(shù)據(jù)挖掘的主題是從這些互不相關(guān)的數(shù)據(jù)中尋找出與交通事故相關(guān)的信息,導(dǎo)致交通事故發(fā)生的各種因素以及交通事故對各種因素的概率分布。
3.2 數(shù)據(jù)準(zhǔn)備
由于機(jī)動(dòng)車輛.機(jī)動(dòng)車駕駛員、交通事故信息管理系統(tǒng)的建設(shè)都是針對特定需求建立起來的事務(wù)性數(shù)據(jù)庫,其中存放的數(shù)據(jù)往往不能直接用于挖掘主題的數(shù)據(jù)挖掘,必須進(jìn)行必要的數(shù)據(jù)預(yù)處理或數(shù)據(jù)準(zhǔn)備,包括數(shù)據(jù)選擇、凈化、轉(zhuǎn)換、數(shù)據(jù)縮減等工作,獲取與挖掘主題直接相關(guān)的有效數(shù)據(jù)。數(shù)據(jù)準(zhǔn)備是非常重要的一個(gè)步驟,將影響數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性。
機(jī)動(dòng)車駕駛員信息管理系統(tǒng)主要記錄與駕駛員相關(guān)的信息,如駕駛員姓名、性別、年齡、學(xué)歷、駕齡、準(zhǔn)駕車輛類別、駕駛證編號、發(fā)證機(jī)關(guān)等;機(jī)動(dòng)車輛信息管理系統(tǒng)記錄車主姓名、車輛牌號、型號、類別、顏色、發(fā)動(dòng)機(jī)號、車架號、出廠時(shí)間、購買時(shí)間、車輛用途等;交通事故信息管理系統(tǒng)記錄肇事駕駛員信息,如肇事駕駛員姓名、性別、年齡、駕齡、駕駛證編號以及肇事車輛的牌照號、型號、類別等。這些信息有些與交通事故相關(guān),有些信息無關(guān)。車輛事故發(fā)生的概率與駕駛?cè)藛T本身有著密切的關(guān)系,影響駕駛?cè)藛T安全駕駛的主要因素包括年齡、性別、駕齡等。數(shù)據(jù)處理后可得表l所示的與交通事故密切相關(guān)的數(shù)據(jù)記錄。
3.3 數(shù)據(jù)挖掘方法設(shè)計(jì)
數(shù)據(jù)挖掘算法或數(shù)據(jù)挖掘技術(shù)的選擇,依賴于已有的原始數(shù)據(jù)資源和選定的挖掘主題,本課題所涉及的數(shù)據(jù)資源儲(chǔ)存于不同的事務(wù)性數(shù)據(jù)庫中,而確定的挖掘主題是利用數(shù)據(jù)挖掘技術(shù),對這些大量的數(shù)據(jù)進(jìn)行宏觀的基礎(chǔ)研究,尋求導(dǎo)致各種交通事故發(fā)生諸多因素的概率分布,為交通管理部門、商業(yè)保險(xiǎn)部門、安全教育部門、機(jī)動(dòng)車駕駛員培訓(xùn)部門等行業(yè)提供決策的宏觀支持。挖掘的方法選用分類模式中的決策樹方法,這是分類模式中常用的一種分類器,通過對大量數(shù)據(jù)進(jìn)行有目的的分類,從中找到一些有價(jià)值的、潛在的信息。決策樹方法的主要優(yōu)點(diǎn)是可以生成可理解的規(guī)則,計(jì)算量小,可以處理連續(xù)和集合屬性,決策樹的輸出包括屬性重要性排序。決策樹是一個(gè)類似于流程圖的結(jié)構(gòu),它包括決策節(jié)點(diǎn)、分枝和葉子節(jié)點(diǎn)。根據(jù)本課題的目標(biāo),決策樹法采用ID3方法,選擇互信息最大的屬性作為根節(jié)點(diǎn)。表l中有3個(gè)決策屬性和一個(gè)分類屬性,決策屬性是駕駛員年齡、駕齡和性別,分類屬性是事故的有無。ID3算法包括信息熵的計(jì)算、屬性A條件熵的計(jì)算和互信息的計(jì)算。
(1)信息熵的計(jì)算
信息熵的計(jì)算公式為:
式中,i取值1、2,U分別表示有交通事故和無交通事故樣本,P(Ui)表示類別為Ui的樣本占樣本總數(shù)中的比例。
根據(jù)式(1),信息熵H(U的計(jì)算算法為:
式中P(Vj)表示屬性A中取值為Vj的樣本占樣本總數(shù)的比例,P(Ui|Vj)表示屬性A取值Vj時(shí),類別為Ui的概率。
例如,對于駕駛員年齡屬性,j的取值范圍是駕駛員的年齡范圍,約20~70;i的取值范圍仍是1、2,表示事故的有無。則駕駛員年齡屬性條件熵計(jì)算的具體算法為:
分別計(jì)算出決策屬性的互信息Gain(年齡)、Gain(駕齡)、Gain(性別)的數(shù)值,選擇互信息最大的屬性作為決策樹的根節(jié)點(diǎn)。依該屬性的取值作為分枝,每個(gè)分枝對應(yīng)一個(gè)子集。對于每一個(gè)子集,重新計(jì)算其所含樣本的信息熵、條件熵和互信息,確定該子集的當(dāng)前節(jié)點(diǎn)及其分枝,直到遍歷了所有的決策屬性,獲得全部的葉子節(jié)點(diǎn)。葉子節(jié)點(diǎn)的數(shù)值就是從決策樹根節(jié)點(diǎn)開始,沿相關(guān)路徑(分枝)到達(dá)葉子節(jié)點(diǎn)所包含的樣本集可能發(fā)生交通事故的概率。
這樣建立的決策樹及概率分布就把交通事故與駕駛員的關(guān)系清晰地表露出來,同樣,也可選擇其他挖掘主題如交通事故與機(jī)動(dòng)車輛的關(guān)系、與天氣的關(guān)系等進(jìn)行挖掘。
4 結(jié)語
經(jīng)過多年的發(fā)展與積累,與交通管理相關(guān)的部門積累了大量的與交通安全相關(guān)的數(shù)據(jù)資源,充分利用這些數(shù)據(jù)資源,使其為促進(jìn)經(jīng)濟(jì)發(fā)展、創(chuàng)建和諧社會(huì)服務(wù)。數(shù)據(jù)挖掘技術(shù)是開發(fā)這些數(shù)據(jù)資源的有效手段,可以找出這些海量數(shù)據(jù)之間的內(nèi)在的規(guī)律性的聯(lián)系,從而為相關(guān)部門或機(jī)構(gòu)的宏觀決策提供技術(shù)支持。與其他相關(guān)研究不同.這里的工作基于對機(jī)動(dòng)車駕駛員總體樣本的研究,結(jié)果會(huì)更真實(shí)可信,指導(dǎo)意義更強(qiáng)。
北京2022年10月18日 /美通社/ -- 10月14日,國際數(shù)據(jù)公司(IDC)發(fā)布《2022Q2中國軟件定義存儲(chǔ)及超融合市場研究報(bào)告》,報(bào)告顯示:2022年上半年浪潮超融合銷售額同比增長59.4%,近5倍于...
關(guān)鍵字: IDC BSP 數(shù)字化 數(shù)據(jù)中心東京2022年10月18日 /美通社/ -- NIPPON EXPRESS HOLDINGS株式會(huì)社(NIPPON EXPRESS HOLDINGS, INC.)旗下集團(tuán)公司上海通運(yùn)國際物流有限公司(Nipp...
關(guān)鍵字: 溫控 精密儀器 半導(dǎo)體制造 BSP要問機(jī)器人公司哪家強(qiáng),波士頓動(dòng)力絕對是其中的佼佼者。近來年該公司在機(jī)器人研發(fā)方面獲得的一些成果令人印象深刻,比如其開發(fā)的機(jī)器人會(huì)后空翻,自主爬樓梯等。這不,波士頓動(dòng)力又發(fā)布了其機(jī)器人組團(tuán)跳男團(tuán)舞的新視頻,表演的機(jī)器人包括...
關(guān)鍵字: 機(jī)器人 BSP 工業(yè)機(jī)器人 現(xiàn)代汽車