當(dāng)前位置：首頁 > 智能硬件 > 人工智能AI

淺談自然語言處理技術(shù)的應(yīng)用領(lǐng)域

時間：2020-08-03 13:51:01

關(guān)鍵字：自然語言處理

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀] 以下七種自然語言處理的常見應(yīng)用： 1. 文本分類文本分類Text ClassificaTIon 文本分類是指給定一個文本，預(yù)測其所屬的預(yù)定類別。 “

以下七種自然語言處理的常見應(yīng)用： 1. 文本分類

文本分類Text ClassificaTIon

文本分類是指給定一個文本，預(yù)測其所屬的預(yù)定類別。

“文本分類的目的是對文檔的主題或主旨進行分類。”

- p575， FoundaTIons of StaTIsTIcal Natural Language Processing（http://amzn.to/2ePBz9t）， 1999

一種流行文本分類應(yīng)用是情感分析（https://en.wikipedia.org/wiki/Sentiment_analysis），其中的常用類別標簽表示源文本的情緒色調(diào)，例如“積極”或“消極”。

其他3類文本分類的應(yīng)用：

垃圾郵件過濾，依照文本分類電子郵件的垃圾郵件。

語言識別，對源文本的語言進行分類。

題材分類，分類虛構(gòu)故事的體裁。

此外，還可以按需要給文本分配多個類別標簽（即所謂的多標簽分類）。例如為tweet分配多個主題標簽。

2. 語言建模

語言建模真的是一個很有趣的自然語言問題的子任務(wù)，特別是在其他一些任務(wù)的基礎(chǔ)上調(diào)節(jié)語言模型。

“問題是預(yù)測出給定單詞的下一個單詞。該任務(wù)是語音或光學(xué)字符識別的基礎(chǔ)，也用于拼寫校正，手寫識別和統(tǒng)計學(xué)的機器翻譯。”

- p575， Foundations of Statistical Natural Language Processing （http://amzn.to/2ePBz9t）， 1999.

除了關(guān)于學(xué)術(shù)研究的興趣，語言模型還是許多應(yīng)用深度學(xué)習(xí)的自然語言處理架構(gòu)的關(guān)鍵組成部分。

語言模型可以學(xué)習(xí)詞與詞之間的概率關(guān)系，然后生成與源文本統(tǒng)計上一致的詞匯新序列。

語言模型可以用于文本或語音生成，應(yīng)用如下：

生成新的文章標題。

生成新的句子，段落或文檔。

生成后續(xù)句子建議。

3. 語音識別

語音識別是解決如何理解人類所說的問題。

“語音識別的任務(wù)是將包含口語在內(nèi)的自然語言的聲學(xué)信號轉(zhuǎn)換成符合說話者預(yù)期的相應(yīng)的單詞序列。”

- p458， Deep Learning （http://amzn.to/2uE7WvS）， 2016.

給定依據(jù)文本生成的音頻數(shù)據(jù)，模型必須能生成人類可讀的文本。鑒于過程的自動性，這個任務(wù)也可稱為自動語音識別（Automatic Speech Recognition， ASR）。

語言模型用于創(chuàng)建以音頻數(shù)據(jù)為基礎(chǔ)的的輸出文本，應(yīng)用包括：

生成演講文本。

為電影或電視節(jié)目創(chuàng)建字幕。

開車時向收音機發(fā)出命令。

4. 說明生成

說明生成是解決如何描述圖像內(nèi)容的問題，依照諸如照片等的數(shù)字圖像生成和圖像內(nèi)容相關(guān)的文本描述。

說明生成的語言模型用于根據(jù)圖像生成標題，一些具體的應(yīng)用包括：

描述場景的內(nèi)容

創(chuàng)建照片的標題

描述視頻

5. 機器翻譯

機器翻譯是指將一種語言的源文本轉(zhuǎn)換為另一種語言。

“機器翻譯，從一種語言到另一種語言的文本或語音的自動翻譯，是NLP最重要的應(yīng)用之一。”

- p463， Foundations of Statistical Natural Language Processing（http://amzn.to/2ePBz9t）， 1999.

鑒于加入了深層神經(jīng)網(wǎng)絡(luò)，該任務(wù)現(xiàn)在也被稱為神經(jīng)機器翻譯（neural machine translation）。

“在機器翻譯任務(wù)中，輸入是由某種語言的符號序列組成，而計算機程序必須將輸入轉(zhuǎn)換成其他語言的符號序列。機器翻譯經(jīng)常應(yīng)用于自然語言，例如從英語翻譯成法語。近來，深度學(xué)習(xí)開始對該任務(wù)產(chǎn)生重要影響。”

- p98， Deep Learning （http://amzn.to/2uE7WvS）， 2016

機器翻譯的語言模型用于依據(jù)源文本，輸出第二語言的目標文本。

6.文檔總結(jié)

文檔總結(jié)是指根據(jù)文本創(chuàng)建對應(yīng)簡短描述的任務(wù)。其語言模型用來輸出基于完整文檔的總結(jié)。

相關(guān)應(yīng)用如下：

·創(chuàng)建文檔標題。

·生成文檔摘要。

·7. 問題回答

問題回答是指給出一個主題（如文本文檔）回答有關(guān)該主題的具體問題。

“問答系統(tǒng)，它通過返回相應(yīng)的短語（例如位置，人物或日期）來嘗試回答以問題形式提出的用戶查詢。例如，問題為什么殺死肯尼迪總統(tǒng)？可能得到名詞短語奧斯瓦爾德作答案”

- p377， Foundations of Statistical Natural Language Processing（http://amzn.to/2ePBz9t）， 1999.

常見應(yīng)用如下：

回答有關(guān)維基百科文章，回答有關(guān)新聞文章的問題，回答關(guān)于醫(yī)療記錄的問題。

　　大約90年代開始，自然語言處理技術(shù)領(lǐng)域發(fā)生了巨大的變化。這種變化的兩個明顯的特征是：

　　（1）對系統(tǒng)輸入，要求研制的自然語言處理系統(tǒng)能處理大規(guī)模的真實文本，而不是如以前的研究性系統(tǒng)那樣，只能處理很少的詞條和典型句子。只有這樣，研制的系統(tǒng)才有真正的實用價值。

　?。?）對系統(tǒng)的輸出，鑒于真實地理解自然語言是十分困難的，對系統(tǒng)并不要求能對自然語言文本進行深層的理解，但要能從中抽取有用的信息。例如，對自然語言文本進行自動地提取索引詞，過濾，檢索，自動提取重要信息，進行自動摘要等等。

　　同時，由于強調(diào)了“大規(guī)模”，強調(diào)了“真實文本”，下面兩方面的基礎(chǔ)性工作也得到了重視和加強。

　?。?）大規(guī)模真實語料庫的研制。大規(guī)模的經(jīng)過不同深度加工的真實文本的語料庫，是研究自然語言統(tǒng)計性質(zhì)的基礎(chǔ)。沒有它們，統(tǒng)計方法只能是無源之水。

　?。?）大規(guī)模、信息豐富的詞典的編制工作。規(guī)模為幾萬，十幾萬，甚至幾十萬詞，含有豐富的信息（如包含詞的搭配信息）的計算機可用詞典對自然語言處理的重要性是很明顯的。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動工具SODA V將顛覆汽車市場，使汽車開發(fā)時間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動 BSP

[美通社全球TMT]

從容應(yīng)對未知風(fēng)險----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行，同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報道，騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機衛(wèi)星通信

[美通社全球TMT]

中國通信服務(wù)公布2024年中期業(yè)績

要點：有效應(yīng)對環(huán)境變化，經(jīng)營業(yè)績穩(wěn)中有升落實提質(zhì)增效舉措，毛利潤率延續(xù)升勢戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競爭力堅持高質(zhì)量發(fā)展策略，塑強核心競爭優(yōu)勢...

關(guān)鍵字：通信 BSP 電信運營商數(shù)字經(jīng)濟

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]