淺談自然語言處理技術的應用領域
文本分類Text ClassificaTIon
文本分類是指給定一個文本,預測其所屬的預定類別。
“文本分類的目的是對文檔的主題或主旨進行分類。”
- p575, FoundaTIons of StaTIsTIcal Natural Language Processing(http://amzn.to/2ePBz9t), 1999
一種流行文本分類應用是情感分析(https://en.wikipedia.org/wiki/Sentiment_analysis),其中的常用類別標簽表示源文本的情緒色調,例如“積極”或“消極”。
其他3類文本分類的應用:
垃圾郵件過濾,依照文本分類電子郵件的垃圾郵件。
語言識別,對源文本的語言進行分類。
題材分類,分類虛構故事的體裁。
此外,還可以按需要給文本分配多個類別標簽(即所謂的多標簽分類)。 例如為tweet分配多個主題標簽。
2. 語言建模
語言建模真的是一個很有趣的自然語言問題的子任務,特別是在其他一些任務的基礎上調節(jié)語言模型。
“問題是預測出給定單詞的下一個單詞。 該任務是語音或光學字符識別的基礎,也用于拼寫校正,手寫識別和統(tǒng)計學的機器翻譯。”
- p575, Foundations of Statistical Natural Language Processing (http://amzn.to/2ePBz9t), 1999.
除了關于學術研究的興趣,語言模型還是許多應用深度學習的自然語言處理架構的關鍵組成部分。
語言模型可以學習詞與詞之間的概率關系,然后生成與源文本統(tǒng)計上一致的詞匯新序列。
語言模型可以用于文本或語音生成,應用如下:
生成新的文章標題。
生成新的句子,段落或文檔。
生成后續(xù)句子建議。
3. 語音識別語音識別是解決如何理解人類所說的問題。
“語音識別的任務是將包含口語在內的自然語言的聲學信號轉換成符合說話者預期的相應的單詞序列。”
- p458, Deep Learning (http://amzn.to/2uE7WvS), 2016.
給定依據(jù)文本生成的音頻數(shù)據(jù),模型必須能生成人類可讀的文本。鑒于過程的自動性,這個任務也可稱為自動語音識別(Automatic Speech Recognition, ASR)。
語言模型用于創(chuàng)建以音頻數(shù)據(jù)為基礎的的輸出文本,應用包括:
生成演講文本。
為電影或電視節(jié)目創(chuàng)建字幕。
開車時向收音機發(fā)出命令。
4. 說明生成說明生成是解決如何描述圖像內容的問題,依照諸如照片等的數(shù)字圖像生成和圖像內容相關的文本描述。
說明生成的語言模型用于根據(jù)圖像生成標題,一些具體的應用包括:
描述場景的內容
創(chuàng)建照片的標題
描述視頻
5. 機器翻譯機器翻譯是指將一種語言的源文本轉換為另一種語言。
“機器翻譯,從一種語言到另一種語言的文本或語音的自動翻譯,是NLP最重要的應用之一。”
- p463, Foundations of Statistical Natural Language Processing(http://amzn.to/2ePBz9t), 1999.
鑒于加入了深層神經(jīng)網(wǎng)絡,該任務現(xiàn)在也被稱為神經(jīng)機器翻譯(neural machine translation)。
“在機器翻譯任務中,輸入是由某種語言的符號序列組成,而計算機程序必須將輸入轉換成其他語言的符號序列。 機器翻譯經(jīng)常應用于自然語言,例如從英語翻譯成法語。 近來,深度學習開始對該任務產生重要影響。”
- p98, Deep Learning (http://amzn.to/2uE7WvS), 2016
機器翻譯的語言模型用于依據(jù)源文本,輸出第二語言的目標文本。
6.文檔總結文檔總結是指根據(jù)文本創(chuàng)建對應簡短描述的任務。其語言模型用來輸出基于完整文檔的總結。
相關應用如下:
·創(chuàng)建文檔標題。
·生成文檔摘要。
·7. 問題回答問題回答是指給出一個主題(如文本文檔)回答有關該主題的具體問題。
“問答系統(tǒng),它通過返回相應的短語(例如位置,人物或日期)來嘗試回答以問題形式提出的用戶查詢。 例如,問題為什么殺死肯尼迪總統(tǒng)? 可能得到名詞短語奧斯瓦爾德作答案”
- p377, Foundations of Statistical Natural Language Processing(http://amzn.to/2ePBz9t), 1999.
常見應用如下:
回答有關維基百科文章,回答有關新聞文章的問題,回答關于醫(yī)療記錄的問題。
大約90年代開始,自然語言處理技術領域發(fā)生了巨大的變化。這種變化的兩個明顯的特征是:
(1)對系統(tǒng)輸入,要求研制的自然語言處理系統(tǒng)能處理大規(guī)模的真實文本,而不是如以前的研究性系統(tǒng)那樣,只能處理很少的詞條和典型句子。只有這樣,研制的系統(tǒng)才有真正的實用價值。
?。?)對系統(tǒng)的輸出,鑒于真實地理解自然語言是十分困難的,對系統(tǒng)并不要求能對自然語言文本進行深層的理解,但要能從中抽取有用的信息。例如,對自然語言文本進行自動地提取索引詞,過濾,檢索,自動提取重要信息,進行自動摘要等等。
同時,由于強調了“大規(guī)模”,強調了“真實文本”,下面兩方面的基礎性工作也得到了重視和加強。
(1)大規(guī)模真實語料庫的研制。大規(guī)模的經(jīng)過不同深度加工的真實文本的語料庫,是研究自然語言統(tǒng)計性質的基礎。沒有它們,統(tǒng)計方法只能是無源之水。
?。?)大規(guī)模、信息豐富的詞典的編制工作。規(guī)模為幾萬,十幾萬,甚至幾十萬詞,含有豐富的信息(如包含詞的搭配信息)的計算機可用詞典對自然語言處理的重要性是很明顯的。