利用機(jī)器視覺技術(shù)處理語意理解將會(huì)有效提高指令周期
機(jī)器存在的目的無非是協(xié)助人類進(jìn)行各式工作,將人類從無聊繁瑣的事物中解放。 由于沒有一個(gè)行業(yè)不需要語言,每一個(gè)行業(yè)也都有特殊的文字與行話,因此,語意理解絕對(duì)是人工智能的重要應(yīng)用之一,未來將在無數(shù)領(lǐng)域給予人類各種協(xié)助。
舉例而言,如繁瑣的數(shù)據(jù)庫整理、閱讀查詢等等工作,都與語意分析有關(guān)系。 另外,電子商務(wù)中的輿情分析,也是語意理解技術(shù)一項(xiàng)相當(dāng)重要應(yīng)用實(shí)例。 盡管語言相關(guān)的應(yīng)用依然是人工智能中比較困難的一部分,然而目前在輿情分析應(yīng)用中,準(zhǔn)確率已可達(dá)到八成以上。 雖距離完全正確尚有距離,但已經(jīng)可以做到相當(dāng)程度的應(yīng)用。
與輿情分析概念相同的意圖偵測(cè)功能,同樣可以應(yīng)用在在線客服機(jī)器人的開發(fā),或是自動(dòng)翻譯機(jī)制,都是人工智能中的語意理解技術(shù)能夠發(fā)揮的應(yīng)用領(lǐng)域。
中文編碼無法窮舉 須轉(zhuǎn)向機(jī)器學(xué)習(xí)技術(shù)編碼
語意理解的第一個(gè)步驟是為文字編碼。 例如,英文屬于拼音文字,26個(gè)字母加上標(biāo)點(diǎn)符號(hào)頂多70個(gè)編碼就能涵蓋英語的所有編碼可能。 但中文的變化不如英語穩(wěn)定,同樣一件事情有無限多種表述方式,因此在中文的語意理解操作上,就會(huì)相較英語困難許多。
若是將每個(gè)中文字看作單獨(dú)的存在并個(gè)別編碼,大約會(huì)有兩萬個(gè)以上的編碼數(shù)據(jù)。 由于相較于英文而言,中文若是將幾個(gè)單字抽換、交換位置,人類依然可以理解,要是再加上網(wǎng)絡(luò)流行語、同音字、中英文夾雜等等使用情境,編碼數(shù)可能將會(huì)超過四萬。
先前曾針對(duì)電子商務(wù)的評(píng)論進(jìn)行分析,發(fā)現(xiàn)同樣是在表示「快遞速度優(yōu)良」此一訊息,就有超過三千種中文表述方式。 而且表述方式還能夠無限擴(kuò)充,該數(shù)據(jù)量將隨著數(shù)據(jù)的增加而出現(xiàn)無限多種中文句型(圖1)。
圖1 針對(duì)電子商務(wù)的評(píng)論進(jìn)行分析,發(fā)現(xiàn)同樣是在表示「快遞速度優(yōu)良」此一訊息,就有超過三千種中文表述方式。
以往,傳統(tǒng)語意分析方法是必須先建立一個(gè)巨型的數(shù)據(jù)庫,接著用抓關(guān)鍵詞的方式比對(duì)出需要的數(shù)據(jù),并沒有使用到深度學(xué)習(xí)技術(shù)。 然而,由于語言很復(fù)雜且具彈性,因此使用窮舉法建立數(shù)據(jù)庫將會(huì)發(fā)現(xiàn)永遠(yuǎn)無法列出所有可能。 唯有轉(zhuǎn)向讓機(jī)器理解,以新的角度理解中文的語意理解,才能做到最具效率且準(zhǔn)確的語意理解。
配合詞向量技術(shù) 以機(jī)器視覺技術(shù)理解語意
以往人們皆是以序列的方式去思考文字,進(jìn)而理解語意。 近來人們開始將技術(shù)開發(fā)方式轉(zhuǎn)移至詞向量技術(shù)。 由于其能自主學(xué)習(xí),進(jìn)而找到中文字詞之間關(guān)聯(lián)的特性,故成為近來中文語言分析的最大突破。
利用詞向量的特性,把百萬個(gè)詞匯壓縮成兩百個(gè)維度,會(huì)發(fā)現(xiàn)語言突然變得很簡(jiǎn)單,只要使用基本的加法、減法數(shù)學(xué)概念,便能夠解決語意之間的關(guān)聯(lián)性。 舉例而言,「國王」、「皇后」、「男人」、「女人」四個(gè)字詞都能夠指向一個(gè)向量,因此,假如我們輸入「國王-男人+女人」,計(jì)算機(jī)便能計(jì)算向量之間的相似度,而得出「皇后」此一解答。 詞向量的計(jì)算方式大致如圖2。
圖2 利用詞向量的特性,基本的加法、減法數(shù)學(xué)概念便能夠解決語意之間的關(guān)聯(lián)性。
也由于每個(gè)字詞都有一個(gè)向量,該向量也能被視為是一個(gè)二維的圖像。 因此又進(jìn)一步衍伸出一個(gè)新的技術(shù)趨勢(shì),便是將機(jī)器視覺技術(shù)運(yùn)用于語意理解之中。 也就是說,以前會(huì)去偵測(cè)序列的意義,現(xiàn)在是去偵測(cè)該二維圖像的意義。
利用機(jī)器視覺技術(shù)處理語意理解將會(huì)有效提高指令周期。 以往利用序列的方式,一次只能運(yùn)算一個(gè)字詞的維度,無法平行運(yùn)算。 然而機(jī)器視覺能利用GPU平行運(yùn)算,將比傳統(tǒng)運(yùn)算方式更為精準(zhǔn)且效率更好。