如何利用人工智能和大數(shù)據(jù)來(lái)處理自然語(yǔ)言
掃描二維碼
隨時(shí)隨地手機(jī)看文章
突破自然語(yǔ)言處理瓶頸 需大數(shù)據(jù)與富知識(shí)雙輪驅(qū)動(dòng)
冷眼觀
“今年美國(guó)國(guó)家科技理事會(huì)發(fā)布的國(guó)家人工智能八大戰(zhàn)略中,有三項(xiàng)與自然語(yǔ)言處理有關(guān)。”近日,北京智源人工智能研究院首席科學(xué)家孫茂松表示,“自然語(yǔ)言處理是全球人工智能戰(zhàn)略之關(guān)鍵。”然而,當(dāng)前與自然語(yǔ)言處理的相關(guān)技術(shù)遠(yuǎn)未成熟,許多問(wèn)題亟待突破。那么,目前有哪些解決途徑?
“學(xué)術(shù)領(lǐng)域叫自然語(yǔ)言,其實(shí)指的就是人類語(yǔ)言。自然語(yǔ)言處理可以說(shuō)是從人工智能這個(gè)詞尚未出現(xiàn)前,就是一個(gè)重要研究對(duì)象?!睂O茂松表示。
“語(yǔ)言,是人獨(dú)立于動(dòng)物的重要特征之一。但是大家不要把自己看得太高明,更不要認(rèn)為人的語(yǔ)言就是模板,動(dòng)物的語(yǔ)言也很強(qiáng)大,其中不乏超過(guò)我們的。” 孫茂松指出,比如鯨魚(yú)的神經(jīng)細(xì)胞有370億個(gè),人有200多億,本身它的神經(jīng)系統(tǒng)就比我們發(fā)達(dá),語(yǔ)言也極其豐富。而魚(yú)在海洋光線不好的情況下,能夠做很強(qiáng)的交流,到現(xiàn)在人類也對(duì)其語(yǔ)言的理解十分有限。盡管動(dòng)物的語(yǔ)言和人的語(yǔ)言有很大不同,但共性即是語(yǔ)言是兩個(gè)個(gè)體之間交流的橋梁,橋梁作用就是研究的關(guān)鍵。
上世紀(jì)60年代,機(jī)器翻譯系統(tǒng)已經(jīng)出現(xiàn)。相關(guān)部門(mén)用《圣經(jīng)》中的句子進(jìn)行了測(cè)試,句子直譯的意思是“精神是愿意的,但是肉體是虛弱的”,但用當(dāng)時(shí)的機(jī)器翻譯成俄文,再用俄文系統(tǒng)翻譯成英文時(shí),就變成“伏特加是好的,但肉卻腐爛,酒喝不成了”。如今把這個(gè)英語(yǔ)句子用谷歌翻譯系統(tǒng)翻譯成中文,基本上可以保持語(yǔ)義保持完好,這就是顯著的進(jìn)步。
但現(xiàn)在大數(shù)據(jù)驅(qū)動(dòng)下的自然語(yǔ)言處理遇到的瓶頸,是一位著名機(jī)器翻譯專家提出機(jī)器翻譯中“pen”的問(wèn)題。即“pen”有兩個(gè)意思:鋼筆和圍欄,而無(wú)論是谷歌還是微軟的機(jī)器翻譯,都還不能很好地根據(jù)不同語(yǔ)境將其譯成合適的意思?!叭绻?jiàn)過(guò)這句話的情況機(jī)器可能會(huì)翻譯準(zhǔn)確,而沒(méi)見(jiàn)過(guò)就需要知識(shí)的積累。大數(shù)據(jù)驅(qū)動(dòng)下的自然語(yǔ)言處理有很大局限性,即運(yùn)用知識(shí)處理問(wèn)題的能力幾乎沒(méi)有?!睂O茂松指出。
近些年,自然語(yǔ)言處理在全球范圍受到學(xué)術(shù)界的高度重視,美國(guó)國(guó)防高級(jí)研究計(jì)劃局(DARPA)對(duì)基于知識(shí)的語(yǔ)言智能投入相當(dāng)大,涉及到數(shù)據(jù)知識(shí)與行為、低資源語(yǔ)言處理、知識(shí)指導(dǎo)模式推理、自動(dòng)知識(shí)獲取等。
據(jù)介紹,目前我國(guó)基于大數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)已經(jīng)取得顯著進(jìn)步,這些年來(lái)很多重要進(jìn)展都是基于這個(gè)層面。有專家指出,今后自然語(yǔ)言處理需要通過(guò)知識(shí)驅(qū)動(dòng)實(shí)現(xiàn)突破。孫茂松認(rèn)為,“大數(shù)據(jù)與富知識(shí)雙輪驅(qū)動(dòng)”或成為解決問(wèn)題的關(guān)鍵,即在大數(shù)據(jù)驅(qū)動(dòng)的基礎(chǔ)上加入富知識(shí)驅(qū)動(dòng),兩者結(jié)合,缺一不可。他強(qiáng)調(diào),這個(gè)知識(shí)是系統(tǒng)性的,而不是用破碎的知識(shí)。
為此,北京智源人工智能研究院“自然語(yǔ)言處理”課題團(tuán)隊(duì),將致力于解決多類型知識(shí)資源構(gòu)建、自然語(yǔ)言深度理解、可控自然語(yǔ)言生成、融合知識(shí)的機(jī)器翻譯、智能語(yǔ)言學(xué)習(xí)、對(duì)話系統(tǒng)等問(wèn)題。