當(dāng)前位置：首頁(yè) > 智能硬件 > 人工智能AI

自然語(yǔ)言處理的優(yōu)點(diǎn)有哪些_自然語(yǔ)言處理的5大優(yōu)勢(shì)

時(shí)間：2020-08-03 13:36:02

關(guān)鍵字：自然語(yǔ)言處理

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 　　自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此，

　　自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此，這一領(lǐng)域的研究將涉及自然語(yǔ)言，即人們?nèi)粘Ｊ褂玫恼Z(yǔ)言，所以它與語(yǔ)言學(xué)的研究有著密切的聯(lián)系，但又有重要的區(qū)別。自然語(yǔ)言處理并不是一般地研究自然語(yǔ)言，而在于研制能有效地實(shí)現(xiàn)自然語(yǔ)言通信的計(jì)算機(jī)系統(tǒng)，特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分。

　　自然語(yǔ)言處理（NLP）是計(jì)算機(jī)科學(xué)，人工智能，語(yǔ)言學(xué)關(guān)注計(jì)算機(jī)和人類（自然）語(yǔ)言之間的相互作用的領(lǐng)域。

　　總結(jié)自然語(yǔ)言處理發(fā)展的曲折歷史可以看出，基于規(guī)則的理性主義方法和基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法各有千秋，因此，我們應(yīng)當(dāng)用科學(xué)的態(tài)度來(lái)分析它們的優(yōu)點(diǎn)和缺點(diǎn)。

　　我們認(rèn)為，基于規(guī)則的理性主義方法的優(yōu)點(diǎn)是：

　　* 基于規(guī)則的理性主義方法中的規(guī)則主要是語(yǔ)言學(xué)規(guī)則，這些規(guī)則的形式描述能力和形式生成能力都很強(qiáng)，在自然語(yǔ)言處理中有很好的應(yīng)用價(jià)值。

　　* 基于規(guī)則的理性主義方法可以有效地處理句法分析中的長(zhǎng)距離依存關(guān)系（long-distance dependencies）等困難問(wèn)題，如句子中長(zhǎng)距離的主語(yǔ)和謂語(yǔ)動(dòng)詞之間的一致關(guān)系（subject-verb agreement）問(wèn)題，wh 移位（wh-movement）問(wèn)題。

　　* 基于規(guī)則的理性主義方法通常都是明白易懂的，表達(dá)得很清晰，描述得很明確，很多語(yǔ)言事實(shí)都可以使用語(yǔ)言模型的結(jié)構(gòu)和組成成分直接地、明顯地表示出來(lái)。

　　* 基于規(guī)則的理性主義方法在本質(zhì)上是沒(méi)有方向性的，使用這樣的方法研制出來(lái)的語(yǔ)言模型，既可以應(yīng)用于分析，也可以應(yīng)用于生成，這樣，同樣的一個(gè)語(yǔ)言模型就可以雙向使用。

　　* 基于規(guī)則的理性主義方法可以在語(yǔ)言知識(shí)的各個(gè)平面上使用，可以在語(yǔ)言的不同維度上得到多維的應(yīng)用。這種方法不僅可以在語(yǔ)音和形態(tài)的研究中使用，而且，在句法、語(yǔ)義、語(yǔ)用、篇章的分析中也大顯身手。

　　* 基于規(guī)則的理性主義方法與計(jì)算機(jī)科學(xué)中提出的一些高效算法是兼容的，例如，計(jì)算機(jī)算法分析中使用Earley 算法（1970 年提出）和Marcus 算法（1978 年提出）都可以作為基于規(guī)則的理性主義方法在自然語(yǔ)言處理中得到有效的使用。

　　基于規(guī)則的理性主義方法的缺點(diǎn)是：

　　* 基于規(guī)則的理性主義方法研制的語(yǔ)言模型一般都比較脆弱，魯棒性很差，一些與語(yǔ)言模型稍微偏離的非本質(zhì)性的錯(cuò)誤，往往會(huì)使得整個(gè)的語(yǔ)言模型無(wú)法正常地工作，甚至導(dǎo)致嚴(yán)重的后果。不過(guò)，近來(lái)已經(jīng)研制出一些魯棒的、靈活的剖析技術(shù)，這些技術(shù)能夠使基于規(guī)則的剖析系統(tǒng)在剖析失敗中得到恢復(fù)。

　　* 使用基于規(guī)則的理性主義方法來(lái)研制自然語(yǔ)言處理系統(tǒng)的時(shí)候，往往需要語(yǔ)言學(xué)家、語(yǔ)音學(xué)家和各種專家的配合工作，進(jìn)行知識(shí)密集的研究，研究工作的強(qiáng)度很大；基于規(guī)則的語(yǔ)言模型不能通過(guò)機(jī)器學(xué)習(xí)的方法自動(dòng)地獲得，也無(wú)法使用計(jì)算機(jī)自動(dòng)地進(jìn)行泛化。

　　* 使用基于規(guī)則的理性主義方法設(shè)計(jì)的自然語(yǔ)言處理系統(tǒng)的針對(duì)性都比較強(qiáng)，很難進(jìn)行進(jìn)一步的升級(jí)。例如，斯羅肯（Slocum）在1981 年曾經(jīng)指出，LIFER 自然語(yǔ)言知識(shí)處理系統(tǒng)在經(jīng)過(guò)兩年的研發(fā)之后，已經(jīng)變得非常之復(fù)雜和龐大，以至于這個(gè)系統(tǒng)原來(lái)的設(shè)計(jì)人很難再對(duì)它進(jìn)行一點(diǎn)點(diǎn)的改動(dòng)。對(duì)于這個(gè)系統(tǒng)的稍微改動(dòng)將會(huì)引起整個(gè)連續(xù)的“水波效應(yīng)”（ripple effect），以至于“牽一發(fā)而動(dòng)全身”，而這樣的副作用是無(wú)法避免和消除的。

　　* 基于規(guī)則的理性主義方法在實(shí)際的使用場(chǎng)合其表現(xiàn)往往不如基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法那樣好。因?yàn)榛诮y(tǒng)計(jì)的經(jīng)驗(yàn)主義方法可以根據(jù)實(shí)際訓(xùn)練數(shù)據(jù)的情況不斷地優(yōu)化，而基于規(guī)則的理性主義方法很難根據(jù)實(shí)際的數(shù)據(jù)進(jìn)行調(diào)整?；谝?guī)則的方法很難模擬語(yǔ)言中局部的約束關(guān)系，例如，單詞的優(yōu)先關(guān)系對(duì)于詞類標(biāo)注是非常有用的，但是基于規(guī)則的理性主義方法很難模擬這種優(yōu)先關(guān)系。

　　不過(guò)，盡管基于規(guī)則的理性主義方法有這樣的或那樣的不足，這種方法終究是自然語(yǔ)言處理中研究得最為深入的技術(shù)，它仍然是非常有價(jià)值和非常強(qiáng)有力的技術(shù)，我們決不能忽視這種方法。事實(shí)證明，基于規(guī)則的理性主義方法的算法具有普適性，不會(huì)由于語(yǔ)種的不同而失去效應(yīng)，這些算法不僅適用于英語(yǔ)、法語(yǔ)、德語(yǔ)等西方語(yǔ)言，也適用于漢語(yǔ)、日語(yǔ)、韓國(guó)語(yǔ)等東方語(yǔ)言。在一些領(lǐng)域針對(duì)性很強(qiáng)的應(yīng)用中，在一些需要豐富的語(yǔ)言學(xué)知識(shí)支持的系統(tǒng)中，特別是在需要處理長(zhǎng)距離依存關(guān)系的自然語(yǔ)言處理系統(tǒng)中，基于規(guī)則的理性主義方法是必不可少的。

　　我們認(rèn)為，基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的優(yōu)點(diǎn)是：

　　* 使用基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法來(lái)訓(xùn)練語(yǔ)言數(shù)據(jù)，從訓(xùn)練的語(yǔ)言數(shù)據(jù)中自動(dòng)地或半自動(dòng)地獲取語(yǔ)言的統(tǒng)計(jì)知識(shí)，可以有效地建立語(yǔ)言的統(tǒng)計(jì)模型。這種方法在文字和語(yǔ)音的自動(dòng)處理中效果良好，在句法自動(dòng)分析和詞義排歧中也初露鋒芒。

　　* 基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的效果在很大的程度上依賴于訓(xùn)練語(yǔ)言數(shù)據(jù)的規(guī)模，訓(xùn)練的語(yǔ)言數(shù)據(jù)越多，基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的效果就越好。在統(tǒng)計(jì)機(jī)器翻譯中，語(yǔ)料庫(kù)的規(guī)模，特別是用來(lái)訓(xùn)練語(yǔ)言模型的目標(biāo)語(yǔ)言語(yǔ)料庫(kù)的規(guī)模，對(duì)于系統(tǒng)性能的提高，起著舉足輕重的作用。因此，可以通過(guò)擴(kuò)大語(yǔ)料庫(kù)規(guī)模的辦法來(lái)不斷提高自然語(yǔ)言處理系統(tǒng)的性能。

　　* 基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法很容易與基于規(guī)則的理性主義方法結(jié)合起來(lái)，從而處理語(yǔ)言中形形色色的約束條件問(wèn)題，使自然語(yǔ)言處理系統(tǒng)的效果不斷地得到改善。

　　* 基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法很適合用來(lái)模擬那些有細(xì)微差別的、不精確的、模糊的概念（如“很少、很多、若干”等），而這些概念，在傳統(tǒng)語(yǔ)言學(xué)中需要使用模糊邏輯（fuzzy logic）才能處理。

　　基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的缺點(diǎn)是：

　　* 使用基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法研制的自然語(yǔ)言處理系統(tǒng)，其運(yùn)行時(shí)間是與統(tǒng)計(jì)模式中所包含的符號(hào)類別的多少成比例線性地增長(zhǎng)的，不論在訓(xùn)練模型的分類中還是在測(cè)試模型的分類中，情況都是如此。因此，如果統(tǒng)計(jì)模式中的符號(hào)類別數(shù)量增加，系統(tǒng)的運(yùn)行效率會(huì)明顯地降低。

　　* 在當(dāng)前語(yǔ)料庫(kù)技術(shù)的條件下，要使用基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法為某個(gè)特殊的應(yīng)用領(lǐng)域獲取訓(xùn)練數(shù)據(jù)，還是一件費(fèi)時(shí)費(fèi)力的工作，而且很難避免出錯(cuò)?；诮y(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的效果與語(yǔ)料庫(kù)的規(guī)模、代表性、正確性以及加工深度都有密切的關(guān)系，可以說(shuō)，用來(lái)訓(xùn)練數(shù)據(jù)的語(yǔ)料庫(kù)的質(zhì)量在很大的程度上決定了基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的效果。

　　* 基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法很容易出現(xiàn)數(shù)據(jù)稀疏的問(wèn)題，隨著訓(xùn)練語(yǔ)料庫(kù)規(guī)模的增大，數(shù)據(jù)稀疏的問(wèn)題會(huì)越來(lái)越嚴(yán)重，這個(gè)問(wèn)題需要使用各種平滑（smoothing）技術(shù)來(lái)解決。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國(guó)博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場(chǎng)，使汽車開發(fā)時(shí)間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動(dòng) BSP

[美通社全球TMT]

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn)，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國(guó)游戲市場(chǎng)開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報(bào)道，騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語(yǔ)權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

中國(guó)通信服務(wù)公布2024年中期業(yè)績(jī)

要點(diǎn)：有效應(yīng)對(duì)環(huán)境變化，經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升落實(shí)提質(zhì)增效舉措，毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競(jìng)爭(zhēng)力堅(jiān)持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字：通信 BSP 電信運(yùn)營(yíng)商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動(dòng)力與長(zhǎng)三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上，軟通動(dòng)力信息技術(shù)（集團(tuán)）股份有限公司（以下簡(jiǎn)稱"軟通動(dòng)力"）與長(zhǎng)三角投資（上海）有限...

關(guān)鍵字： BSP 信息技術(shù)