自然語(yǔ)言處理的優(yōu)點(diǎn)有哪些_自然語(yǔ)言處理的5大優(yōu)勢(shì)
自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語(yǔ)言,即人們?nèi)粘J褂玫恼Z(yǔ)言,所以它與語(yǔ)言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語(yǔ)言處理并不是一般地研究自然語(yǔ)言,而在于研制能有效地實(shí)現(xiàn)自然語(yǔ)言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分。
自然語(yǔ)言處理(NLP)是計(jì)算機(jī)科學(xué),人工智能,語(yǔ)言學(xué)關(guān)注計(jì)算機(jī)和人類(自然)語(yǔ)言之間的相互作用的領(lǐng)域。
總結(jié)自然語(yǔ)言處理發(fā)展的曲折歷史可以看出,基于規(guī)則的理性主義方法和基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法各有千秋,因此,我們應(yīng)當(dāng)用科學(xué)的態(tài)度來(lái)分析它們的優(yōu)點(diǎn)和缺點(diǎn)。
我們認(rèn)為,基于規(guī)則的理性主義方法的優(yōu)點(diǎn)是:* 基于規(guī)則的理性主義方法中的規(guī)則主要是語(yǔ)言學(xué)規(guī)則,這些規(guī)則的形式描述能力和形式生成能力都很強(qiáng),在自然語(yǔ)言處理中有很好的應(yīng)用價(jià)值。
* 基于規(guī)則的理性主義方法可以有效地處理句法分析中的長(zhǎng)距離依存關(guān)系(long-distance dependencies)等困難問(wèn)題,如句子中長(zhǎng)距離的主語(yǔ)和謂語(yǔ)動(dòng)詞之間的一致關(guān)系(subject-verb agreement)問(wèn)題,wh 移位(wh-movement)問(wèn)題。
* 基于規(guī)則的理性主義方法通常都是明白易懂的,表達(dá)得很清晰,描述得很明確,很多語(yǔ)言事實(shí)都可以使用語(yǔ)言模型的結(jié)構(gòu)和組成成分直接地、明顯地表示出來(lái)。
* 基于規(guī)則的理性主義方法在本質(zhì)上是沒(méi)有方向性的,使用這樣的方法研制出來(lái)的語(yǔ)言模型,既可以應(yīng)用于分析,也可以應(yīng)用于生成,這樣,同樣的一個(gè)語(yǔ)言模型就可以雙向使用。
* 基于規(guī)則的理性主義方法可以在語(yǔ)言知識(shí)的各個(gè)平面上使用,可以在語(yǔ)言的不同維度上得到多維的應(yīng)用。這種方法不僅可以在語(yǔ)音和形態(tài)的研究中使用,而且,在句法、語(yǔ)義、語(yǔ)用、篇章的分析中也大顯身手。
* 基于規(guī)則的理性主義方法與計(jì)算機(jī)科學(xué)中提出的一些高效算法是兼容的,例如,計(jì)算機(jī)算法分析中使用Earley 算法(1970 年提出)和Marcus 算法(1978 年提出)都可以作為基于規(guī)則的理性主義方法在自然語(yǔ)言處理中得到有效的使用。
基于規(guī)則的理性主義方法的缺點(diǎn)是:* 基于規(guī)則的理性主義方法研制的語(yǔ)言模型一般都比較脆弱,魯棒性很差,一些與語(yǔ)言模型稍微偏離的非本質(zhì)性的錯(cuò)誤,往往會(huì)使得整個(gè)的語(yǔ)言模型無(wú)法正常地工作,甚至導(dǎo)致嚴(yán)重的后果。不過(guò),近來(lái)已經(jīng)研制出一些魯棒的、靈活的剖析技術(shù),這些技術(shù)能夠使基于規(guī)則的剖析系統(tǒng)在剖析失敗中得到恢復(fù)。
* 使用基于規(guī)則的理性主義方法來(lái)研制自然語(yǔ)言處理系統(tǒng)的時(shí)候,往往需要語(yǔ)言學(xué)家、語(yǔ)音學(xué)家和各種專家的配合工作,進(jìn)行知識(shí)密集的研究,研究工作的強(qiáng)度很大;基于規(guī)則的語(yǔ)言模型不能通過(guò)機(jī)器學(xué)習(xí)的方法自動(dòng)地獲得,也無(wú)法使用計(jì)算機(jī)自動(dòng)地進(jìn)行泛化。
* 使用基于規(guī)則的理性主義方法設(shè)計(jì)的自然語(yǔ)言處理系統(tǒng)的針對(duì)性都比較強(qiáng),很難進(jìn)行進(jìn)一步的升級(jí)。例如,斯羅肯(Slocum)在1981 年曾經(jīng)指出,LIFER 自然語(yǔ)言知識(shí)處理系統(tǒng)在經(jīng)過(guò)兩年的研發(fā)之后,已經(jīng)變得非常之復(fù)雜和龐大,以至于這個(gè)系統(tǒng)原來(lái)的設(shè)計(jì)人很難再對(duì)它進(jìn)行一點(diǎn)點(diǎn)的改動(dòng)。對(duì)于這個(gè)系統(tǒng)的稍微改動(dòng)將會(huì)引起整個(gè)連續(xù)的“水波效應(yīng)”(ripple effect),以至于“牽一發(fā)而動(dòng)全身”,而這樣的副作用是無(wú)法避免和消除的。
* 基于規(guī)則的理性主義方法在實(shí)際的使用場(chǎng)合其表現(xiàn)往往不如基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法那樣好。因?yàn)榛诮y(tǒng)計(jì)的經(jīng)驗(yàn)主義方法可以根據(jù)實(shí)際訓(xùn)練數(shù)據(jù)的情況不斷地優(yōu)化,而基于規(guī)則的理性主義方法很難根據(jù)實(shí)際的數(shù)據(jù)進(jìn)行調(diào)整?;谝?guī)則的方法很難模擬語(yǔ)言中局部的約束關(guān)系,例如,單詞的優(yōu)先關(guān)系對(duì)于詞類標(biāo)注是非常有用的,但是基于規(guī)則的理性主義方法很難模擬這種優(yōu)先關(guān)系。
不過(guò),盡管基于規(guī)則的理性主義方法有這樣的或那樣的不足,這種方法終究是自然語(yǔ)言處理中研究得最為深入的技術(shù),它仍然是非常有價(jià)值和非常強(qiáng)有力的技術(shù),我們決不能忽視這種方法。事實(shí)證明,基于規(guī)則的理性主義方法的算法具有普適性,不會(huì)由于語(yǔ)種的不同而失去效應(yīng),這些算法不僅適用于英語(yǔ)、法語(yǔ)、德語(yǔ)等西方語(yǔ)言,也適用于漢語(yǔ)、日語(yǔ)、韓國(guó)語(yǔ)等東方語(yǔ)言。在一些領(lǐng)域針對(duì)性很強(qiáng)的應(yīng)用中,在一些需要豐富的語(yǔ)言學(xué)知識(shí)支持的系統(tǒng)中,特別是在需要處理長(zhǎng)距離依存關(guān)系的自然語(yǔ)言處理系統(tǒng)中,基于規(guī)則的理性主義方法是必不可少的。
我們認(rèn)為,基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的優(yōu)點(diǎn)是:
* 使用基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法來(lái)訓(xùn)練語(yǔ)言數(shù)據(jù),從訓(xùn)練的語(yǔ)言數(shù)據(jù)中自動(dòng)地或半自動(dòng)地獲取語(yǔ)言的統(tǒng)計(jì)知識(shí),可以有效地建立語(yǔ)言的統(tǒng)計(jì)模型。這種方法在文字和語(yǔ)音的自動(dòng)處理中效果良好,在句法自動(dòng)分析和詞義排歧中也初露鋒芒。
* 基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的效果在很大的程度上依賴于訓(xùn)練語(yǔ)言數(shù)據(jù)的規(guī)模,訓(xùn)練的語(yǔ)言數(shù)據(jù)越多,基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的效果就越好。在統(tǒng)計(jì)機(jī)器翻譯中,語(yǔ)料庫(kù)的規(guī)模,特別是用來(lái)訓(xùn)練語(yǔ)言模型的目標(biāo)語(yǔ)言語(yǔ)料庫(kù)的規(guī)模,對(duì)于系統(tǒng)性能的提高,起著舉足輕重的作用。因此,可以通過(guò)擴(kuò)大語(yǔ)料庫(kù)規(guī)模的辦法來(lái)不斷提高自然語(yǔ)言處理系統(tǒng)的性能。
* 基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法很容易與基于規(guī)則的理性主義方法結(jié)合起來(lái),從而處理語(yǔ)言中形形色色的約束條件問(wèn)題,使自然語(yǔ)言處理系統(tǒng)的效果不斷地得到改善。
* 基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法很適合用來(lái)模擬那些有細(xì)微差別的、不精確的、模糊的概念(如“很少、很多、若干”等),而這些概念,在傳統(tǒng)語(yǔ)言學(xué)中需要使用模糊邏輯(fuzzy logic)才能處理。
基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的缺點(diǎn)是:* 使用基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法研制的自然語(yǔ)言處理系統(tǒng),其運(yùn)行時(shí)間是與統(tǒng)計(jì)模式中所包含的符號(hào)類別的多少成比例線性地增長(zhǎng)的,不論在訓(xùn)練模型的分類中還是在測(cè)試模型的分類中,情況都是如此。因此,如果統(tǒng)計(jì)模式中的符號(hào)類別數(shù)量增加,系統(tǒng)的運(yùn)行效率會(huì)明顯地降低。
* 在當(dāng)前語(yǔ)料庫(kù)技術(shù)的條件下,要使用基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法為某個(gè)特殊的應(yīng)用領(lǐng)域獲取訓(xùn)練數(shù)據(jù),還是一件費(fèi)時(shí)費(fèi)力的工作,而且很難避免出錯(cuò)?;诮y(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的效果與語(yǔ)料庫(kù)的規(guī)模、代表性、正確性以及加工深度都有密切的關(guān)系,可以說(shuō),用來(lái)訓(xùn)練數(shù)據(jù)的語(yǔ)料庫(kù)的質(zhì)量在很大的程度上決定了基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法的效果。
* 基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法很容易出現(xiàn)數(shù)據(jù)稀疏的問(wèn)題,隨著訓(xùn)練語(yǔ)料庫(kù)規(guī)模的增大,數(shù)據(jù)稀疏的問(wèn)題會(huì)越來(lái)越嚴(yán)重,這個(gè)問(wèn)題需要使用各種平滑(smoothing)技術(shù)來(lái)解決。