模式識別基本概念
要知道模式識別講什么內(nèi)容。主要解決什么問題,我們?nèi)绾芜M(jìn)入這個(gè)領(lǐng)域,總要知道一些基本的概念,一些基本的、現(xiàn)有的方法。
概念性的東西,參考希臘的那本《Pattern Recognition》,我看的是第四版的影印版,有時(shí)候也會看看Duda的模式分類,這本書有電子版原版,原版影印版在國內(nèi)已經(jīng)絕版了。有時(shí)候也會參考wikipedia,這個(gè)網(wǎng)站確實(shí)不錯(cuò)!
1、模式識別
?英文是 Pattern recognition。 有時(shí)候業(yè)內(nèi)的人常把它簡單寫成PR,他是一門科學(xué),將多個(gè)對象分到不同的類別的學(xué)科。wikipedia解釋說,PR是機(jī)器學(xué)習(xí)的一個(gè)學(xué)科,而機(jī)器學(xué)習(xí)又是人工智能的一個(gè)分支。不想把問題描述的這么全面,我們只在模式識別里面看問題。
?Pattern recognition is a scientific discipline whose goal is the classification of objects into a number of categories or classes.?
?根據(jù)不同的應(yīng)用背景,這里的object可以是很多東西,比如圖像啊什么的,我們不關(guān)心這個(gè)object到底是啥,為了表明我們真的不關(guān)心,干脆不叫他object了,叫一個(gè)更加高級的名字,就叫pattern,中文翻譯為模式。這樣模式識別就是把模式分到不同的類里了,這就不難理解Duda為啥把他的書叫模式分類了。?
2、features, feature vectors, classifiers
就是特征,特征向量,還有分類器。每個(gè)需要我們分類的模式,可能有很多特征,那么特征就可以認(rèn)為是模式的函數(shù),一般這個(gè)函數(shù)是實(shí)值的,至少我沒有遇到過復(fù)數(shù)的特征,如果是復(fù)數(shù),我們可以看成兩個(gè)特征。因?yàn)槊總€(gè)模式可能有多個(gè)特征,所以我們把這些特征弄成一個(gè)向量,因?yàn)樵诖鷶?shù)里面,向量都是用列向量來描述的,這里我們也會用列向量來描述,以便我們好使用代數(shù)里面的結(jié)論。 這個(gè)向量我們一般稱之為特征向量,就是feature vector了。至于分類器,其本質(zhì)也是函數(shù),接受特征向量,給出類別的函數(shù),為了方便計(jì)算機(jī)處理,我們一般用數(shù)字來表示類別。這樣分類器也是一個(gè)實(shí)值函數(shù)了。
為了能慢慢進(jìn)入這個(gè)領(lǐng)域,我想多多在進(jìn)入之前思考一下是有必要的。
模式識別里面,常常把 特征看成是隨機(jī)變量,大約可以有兩個(gè)理由說明這一點(diǎn),首先同一個(gè)類之中的模式存在差異,隨機(jī)取一個(gè)模式,他的某個(gè)特征可能是隨機(jī)的,比如隨機(jī)在一堆魚里面取一條魚,他的長度特征在取之前可以認(rèn)為是隨機(jī)的。 另外,我們在度量模式的特征的時(shí)候,由于儀器,設(shè)備等原因,可能會引入隨機(jī)誤差,也就是說我們很難提供100%的精確控制,來獲得精確的特征值。
為研究方便,總是給出數(shù)學(xué)記號的,L個(gè)特征x_i , i = 1,...,L,組成特征向量 X = [x_1, ...., x_L]^T
misclassification,如果分類器把輸入的模式分錯(cuò)了,我們就說發(fā)生了‘錯(cuò)分’,就是misclassification發(fā)生了。特別注意,每個(gè)模式都有一個(gè)特征向量,所以我們分類的時(shí)候,就是通過特征向量來分類的,把特征向量輸入到分類器(就是那個(gè)分類函數(shù))里,然后會得到一個(gè)類別返回值,類別呢如果錯(cuò)了,就說發(fā)生了錯(cuò)分。
在討論分類器的時(shí)候,會討論這些問題的?,F(xiàn)在我們就使勁把這些概念先裝到腦子里,讓這些概念添加到我們的條件反射里,深入骨髓!這個(gè)東西就會是自己的了,我們就進(jìn)入這個(gè)領(lǐng)域了。
3、那些需要解決的任務(wù)
?* 如何產(chǎn)生我們需要的特征?這個(gè)根據(jù)不同的應(yīng)用,方法也各有不同,計(jì)算機(jī)視覺中,我們要找圖像的特征。文本分類就搞搞文本特征。具體有哪些,還需要很多時(shí)間來研究。這個(gè)過程叫 feature generation stage, 特征產(chǎn)生階段。
?* 我們需要產(chǎn)生多少特征? 多少個(gè)特征是最好的?一般我們處理這種問題的時(shí)候,采用先找盡量多的特征,然后再根據(jù)某些規(guī)則使用這些特征中的某一些特征。這個(gè)階段叫 feature selection stage,特征選擇階段。
?* 特征有了,怎么設(shè)計(jì)分類器?如何找一個(gè)規(guī)則,在這個(gè)規(guī)則下造一個(gè)最好的分類器?哪些規(guī)則好? 有了規(guī)則,有了模型,分類器怎么求解?這都是需要我們努力解決的問題啊。 幸運(yùn)的是,我們現(xiàn)在解決了很多問題了,所以,學(xué)習(xí)PR還是有很大意義的。這個(gè)階段叫,classifier design 分類器設(shè)計(jì)階段。
?* 最后,如何來評價(jià)分類效果? 不評價(jià)下,總是不完美的吧。說自己好,需要有標(biāo)準(zhǔn)才行。會有一些可以比的項(xiàng)啊,比如分類錯(cuò)誤率,classification error rate。這個(gè)階段叫system evaluation stage 系統(tǒng)評估階段。
這個(gè)是傳統(tǒng)吧,人 ,本身很向往自由的,看了這個(gè),就發(fā)現(xiàn),自己被框住了,特別不情愿啊,總想著,是不是有其它途徑解決分類的問題啊,我不用特征向量行不行呢?直接用原始數(shù)據(jù)呢? 原始數(shù)據(jù)不又變成特征了么。有些時(shí)候自己不情愿也沒辦法呀,想站在巨人的肩膀上成就一番事業(yè),總是要繼承一下巨人的成就嘛,至少可以批判性的繼承呀。哈哈。
4、supervised, unsupervised, semi-supervised learning
有監(jiān)督的,無監(jiān)督的,半監(jiān)督的學(xué)習(xí)。 首先,學(xué)習(xí)是啥呢?是這樣的,我們在知道了某些特征向量屬于哪些類了,比如給了n個(gè)特征向量,其中n1個(gè)是0類,其余的為1類,根據(jù)這個(gè)信息(這個(gè)信息,我們一般稱為priori 信息,就是先驗(yàn)信息?。?,人為設(shè)計(jì)一個(gè)方法,這個(gè)方法會指導(dǎo)計(jì)算機(jī)產(chǎn)生一個(gè)分類器,產(chǎn)生分類器的過程就是學(xué)習(xí)過程。這個(gè)定義還是抽象到機(jī)器學(xué)習(xí)領(lǐng)域中給出的一個(gè)一般化的概念。 前面這種學(xué)習(xí)是在知道先驗(yàn)信息的條件下給出的,為了與“不知道先驗(yàn)特征信息”的學(xué)習(xí)做區(qū)別,我們稱有先驗(yàn)特征信息的學(xué)習(xí)叫有監(jiān)督的學(xué)習(xí),后者是無監(jiān)督的學(xué)習(xí),無監(jiān)督學(xué)習(xí)也叫聚類(clustering)。那個(gè)尋找分類器的過程叫做訓(xùn)練training。
半監(jiān)督學(xué)習(xí),條件是,我們知道一些特征向量所屬的類,還有一部分模式,我們不知道他們屬于哪些類。因?yàn)橹傈c(diǎn)先驗(yàn)信息,所以有監(jiān)督的含義,又因?yàn)槲覀冞€有不知道,所以我們有不監(jiān)督的含義,我們的目的是根據(jù)已知的部分信息,在進(jìn)行聚類。這就是半監(jiān)督的學(xué)習(xí)了。
參考資料
?Koutroumbas, Konstantinos; Theodoridis, Sergios (2008).?Pattern Recognition?(4th ed.). Boston: Academic Press
en.wikipedia.org
Duda.....