www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁(yè) > 智能硬件 > 人工智能AI
[導(dǎo)讀] 自然語(yǔ)言處理簡(jiǎn)介 自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門(mén)融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)

自然語(yǔ)言處理簡(jiǎn)介

自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門(mén)融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語(yǔ)言,即人們?nèi)粘J褂玫恼Z(yǔ)言,所以它與語(yǔ)言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語(yǔ)言處理并不是一般地研究自然語(yǔ)言,而在于研制能有效地實(shí)現(xiàn)自然語(yǔ)言通信的計(jì)算機(jī)系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計(jì)算機(jī)科學(xué)的一部分。自然語(yǔ)言處理(NLP)是計(jì)算機(jī)科學(xué),人工智能,語(yǔ)言學(xué)關(guān)注計(jì)算機(jī)和人類(自然)語(yǔ)言之間的相互作用的領(lǐng)域。

自然語(yǔ)言處理詳細(xì)介紹

語(yǔ)言是人類區(qū)別其他動(dòng)物的本質(zhì)特性。在所有生物中,只有人類才具有語(yǔ)言能力。人類的多種智能都與語(yǔ)言有著密切的關(guān)系。人類的邏輯思維以語(yǔ)言為形式,人類的絕大部分知識(shí)也是以語(yǔ)言文字的形式記載和流傳下來(lái)的。因而,它也是人工智能的一個(gè)重要,甚至核心部分。

用自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信,這是人們長(zhǎng)期以來(lái)所追求的。因?yàn)樗扔忻黠@的實(shí)際意義,同時(shí)也有重要的理論意義:人們可以用自己最習(xí)慣的語(yǔ)言來(lái)使用計(jì)算機(jī),而無(wú)需再花大量的時(shí)間和精力去學(xué)習(xí)不很自然和習(xí)慣的各種計(jì)算機(jī)語(yǔ)言;人們也可通過(guò)它進(jìn)一步了解人類的語(yǔ)言能力和智能的機(jī)制。

實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信意味著要使計(jì)算機(jī)既能理解自然語(yǔ)言文本的意義,也能以自然語(yǔ)言文本來(lái)表達(dá)給定的意圖、思想等。前者稱為自然語(yǔ)言理解,后者稱為自然語(yǔ)言生成。因此,自然語(yǔ)言處理大體包括了自然語(yǔ)言理解和自然語(yǔ)言生成兩個(gè)部分。歷史上對(duì)自然語(yǔ)言理解研究得較多,而對(duì)自然語(yǔ)言生成研究得較少。但這種狀況已有所改變。

無(wú)論實(shí)現(xiàn)自然語(yǔ)言理解,還是自然語(yǔ)言生成,都遠(yuǎn)不如人們?cè)瓉?lái)想象的那么簡(jiǎn)單,而是十分困難的。從現(xiàn)有的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語(yǔ)言處理系統(tǒng),仍然是較長(zhǎng)期的努力目標(biāo),但是針對(duì)一定應(yīng)用,具有相當(dāng)自然語(yǔ)言處理能力的實(shí)用系統(tǒng)已經(jīng)出現(xiàn),有些已商品化,甚至開(kāi)始產(chǎn)業(yè)化。典型的例子有:多語(yǔ)種數(shù)據(jù)庫(kù)和專家系統(tǒng)的自然語(yǔ)言接口、各種機(jī)器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動(dòng)文摘系統(tǒng)等。

自然語(yǔ)言處理,即實(shí)現(xiàn)人機(jī)間自然語(yǔ)言通信,或?qū)崿F(xiàn)自然語(yǔ)言理解和自然語(yǔ)言生成是十分困難的。造成困難的根本原因是自然語(yǔ)言文本和對(duì)話的各個(gè)層次上廣泛存在的各種各樣的歧義性或多義性。

一個(gè)中文文本從形式上看是由漢字(包括標(biāo)點(diǎn)符號(hào)等)組成的一個(gè)字符串。由字可組成詞,由詞可組成詞組,由詞組可組成句子,進(jìn)而由一些句子組成段、節(jié)、章、篇。無(wú)論在上述的各種層次:字(符)、詞、詞組、句子、段,……還是在下一層次向上一層次轉(zhuǎn)變中都存在著歧義和多義現(xiàn)象,即形式上一樣的一段字符串,在不同的場(chǎng)景或不同的語(yǔ)境下,可以理解成不同的詞串、詞組串等,并有不同的意義。一般情況下,它們中的大多數(shù)都是可以根據(jù)相應(yīng)的語(yǔ)境和場(chǎng)景的規(guī)定而得到解決的。也就是說(shuō),從總體上說(shuō),并不存在歧義。這也就是我們平時(shí)并不感到自然語(yǔ)言歧義,和能用自然語(yǔ)言進(jìn)行正確交流的原因。但是一方面,我們也看到,為了消解歧義,是需要極其大量的知識(shí)和進(jìn)行推理的。如何將這些知識(shí)較完整地加以收集和整理出來(lái);又如何找到合適的形式,將它們存入計(jì)算機(jī)系統(tǒng)中去;以及如何有效地利用它們來(lái)消除歧義,都是工作量極大且十分困難的工作。這不是少數(shù)人短時(shí)期內(nèi)可以完成的,還有待長(zhǎng)期的、系統(tǒng)的工作。

以上說(shuō)的是,一個(gè)中文文本或一個(gè)漢字(含標(biāo)點(diǎn)符號(hào)等)串可能有多個(gè)含義。它是自然語(yǔ)言理解中的主要困難和障礙。反過(guò)來(lái),一個(gè)相同或相近的意義同樣可以用多個(gè)中文文本或多個(gè)漢字串來(lái)表示。

因此,自然語(yǔ)言的形式(字符串)與其意義之間是一種多對(duì)多的關(guān)系。其實(shí)這也正是自然語(yǔ)言的魅力所在。但從計(jì)算機(jī)處理的角度看,我們必須消除歧義,而且有人認(rèn)為它正是自然語(yǔ)言理解中的中心問(wèn)題,即要把帶有潛在歧義的自然語(yǔ)言輸入轉(zhuǎn)換成某種無(wú)歧義的計(jì)算機(jī)內(nèi)部表示。

歧義現(xiàn)象的廣泛存在使得消除它們需要大量的知識(shí)和推理,這就給基于語(yǔ)言學(xué)的方法、基于知識(shí)的方法帶來(lái)了巨大的困難,因而以這些方法為主流的自然語(yǔ)言處理研究幾十年來(lái)一方面在理論和方法方面取得了很多成就,但在能處理大規(guī)模真實(shí)文本的系統(tǒng)研制方面,成績(jī)并不顯著。研制的一些系統(tǒng)大多數(shù)是小規(guī)模的、研究性的演示系統(tǒng)。

目前存在的問(wèn)題有兩個(gè)方面:一方面,迄今為止的語(yǔ)法都限于分析一個(gè)孤立的句子,上下文關(guān)系和談話環(huán)境對(duì)本句的約束和影響還缺乏系統(tǒng)的研究,因此分析歧義、詞語(yǔ)省略、代詞所指、同一句話在不同場(chǎng)合或由不同的人說(shuō)出來(lái)所具有的不同含義等問(wèn)題,尚無(wú)明確規(guī)律可循,需要加強(qiáng)語(yǔ)用學(xué)的研究才能逐步解決。另一方面,人理解一個(gè)句子不是單憑語(yǔ)法,還運(yùn)用了大量的有關(guān)知識(shí),包括生活知識(shí)和專門(mén)知識(shí),這些知識(shí)無(wú)法全部貯存在計(jì)算機(jī)里。因此一個(gè)書(shū)面理解系統(tǒng)只能建立在有限的詞匯、句型和特定的主題范圍內(nèi);計(jì)算機(jī)的貯存量和運(yùn)轉(zhuǎn)速度大大提高之后,才有可能適當(dāng)擴(kuò)大范圍。

以上存在的問(wèn)題成為自然語(yǔ)言理解在機(jī)器翻譯應(yīng)用中的主要難題,這也就是當(dāng)今機(jī)器翻譯系統(tǒng)的譯文質(zhì)量離理想目標(biāo)仍相差甚遠(yuǎn)的原因之一;而譯文質(zhì)量是機(jī)譯系統(tǒng)成敗的關(guān)鍵。中國(guó)數(shù)學(xué)家、語(yǔ)言學(xué)家周海中教授曾在經(jīng)典論文《機(jī)器翻譯五十年》中指出:要提高機(jī)譯的質(zhì)量,首先要解決的是語(yǔ)言本身問(wèn)題而不是程序設(shè)計(jì)問(wèn)題;單靠若干程序來(lái)做機(jī)譯系統(tǒng),肯定是無(wú)法提高機(jī)譯質(zhì)量的;另外在人類尚未明了大腦是如何進(jìn)行語(yǔ)言的模糊識(shí)別和邏輯判斷的情況下,機(jī)譯要想達(dá)到“信、達(dá)、雅”的程度是不可能的。

自然語(yǔ)言處理常用方法舉例說(shuō)明

自然語(yǔ)言處理或者是文本挖掘以及數(shù)據(jù)挖掘,近來(lái)一直是研究的熱點(diǎn)。很多人相想數(shù)據(jù)挖掘,或者自然語(yǔ)言處理,就有一種莫名的距離感。其實(shí),走進(jìn)去你會(huì)發(fā)現(xiàn)它的美,它在現(xiàn)實(shí)生活中解決難題的應(yīng)用之美,跟它相結(jié)合的數(shù)學(xué)之美,還有它與統(tǒng)計(jì)學(xué)的自然融合。語(yǔ)言只是一種實(shí)現(xiàn)工具,真正難度的是模型的理解和對(duì)模型的構(gòu)建。

下面將舉例自然語(yǔ)言常用方法小結(jié)(JAVA實(shí)現(xiàn),C#類似)

1、實(shí)體的基本使用

2、批量讀取目錄下的文件

 

3、讀取單個(gè)文件

 

4 文件預(yù)處理,并以字符串結(jié)果返回

 

5 指定保存文件

 

6 詞頻排序(中英文通用)

 

7 根據(jù)字符有序排列

8 停用詞處理如何判斷?

擴(kuò)展改進(jìn)與移植展望:

本項(xiàng)目由于實(shí)際需求,對(duì)其做了初步完善。基本自然語(yǔ)言處理方法和流程都包含了,諸如詞頻統(tǒng)計(jì),停用詞處理,單詞統(tǒng)計(jì),還有文件的基本操作,再結(jié)合數(shù)學(xué)模型或者統(tǒng)計(jì)模型可以做復(fù)雜的自然語(yǔ)言或者文本處理。比如樸素貝葉斯分類,首先弄明白貝葉斯分類模型,其實(shí)就是對(duì)貝葉斯公式的理解和推導(dǎo)。之后結(jié)合本項(xiàng)目詞頻統(tǒng)計(jì)文件操作,數(shù)據(jù)清洗,中文分詞,停用詞處理就做出來(lái)了。再如,本體構(gòu)建,也是需要對(duì)數(shù)據(jù)清洗,詞頻統(tǒng)計(jì),結(jié)果發(fā)射概率和轉(zhuǎn)移概率,文本標(biāo)注等實(shí)現(xiàn)。

至于本算法改進(jìn),可以對(duì)翻譯部分改進(jìn),一種基于詞庫(kù)的檢索,包括詞性,詞義,詞標(biāo)等匹配。另外一種是對(duì)英文詞組的分詞處理,利用英文分詞解決。移植方面,可以利用C#語(yǔ)言在窗體上開(kāi)發(fā),最后打包應(yīng)用軟件。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開(kāi)發(fā)耗時(shí)1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動(dòng) BSP

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開(kāi)幕式在貴陽(yáng)舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對(duì)環(huán)境變化,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競(jìng)爭(zhēng)力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字: 通信 BSP 電信運(yùn)營(yíng)商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。 活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上,軟通動(dòng)力信息技術(shù)(集團(tuán))股份有限公司(以下簡(jiǎn)稱"軟通動(dòng)力")與長(zhǎng)三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉