www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 智能硬件 > 人工智能AI
[導(dǎo)讀] 自然語言處理簡介 自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計算機科學(xué)、數(shù)

自然語言處理簡介

自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計算機科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此,這一領(lǐng)域的研究將涉及自然語言,即人們?nèi)粘J褂玫恼Z言,所以它與語言學(xué)的研究有著密切的聯(lián)系,但又有重要的區(qū)別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng),特別是其中的軟件系統(tǒng)。因而它是計算機科學(xué)的一部分。自然語言處理(NLP)是計算機科學(xué),人工智能,語言學(xué)關(guān)注計算機和人類(自然)語言之間的相互作用的領(lǐng)域。

自然語言處理詳細介紹

語言是人類區(qū)別其他動物的本質(zhì)特性。在所有生物中,只有人類才具有語言能力。人類的多種智能都與語言有著密切的關(guān)系。人類的邏輯思維以語言為形式,人類的絕大部分知識也是以語言文字的形式記載和流傳下來的。因而,它也是人工智能的一個重要,甚至核心部分。

用自然語言與計算機進行通信,這是人們長期以來所追求的。因為它既有明顯的實際意義,同時也有重要的理論意義:人們可以用自己最習(xí)慣的語言來使用計算機,而無需再花大量的時間和精力去學(xué)習(xí)不很自然和習(xí)慣的各種計算機語言;人們也可通過它進一步了解人類的語言能力和智能的機制。

實現(xiàn)人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。前者稱為自然語言理解,后者稱為自然語言生成。因此,自然語言處理大體包括了自然語言理解和自然語言生成兩個部分。歷史上對自然語言理解研究得較多,而對自然語言生成研究得較少。但這種狀況已有所改變。

無論實現(xiàn)自然語言理解,還是自然語言生成,都遠不如人們原來想象的那么簡單,而是十分困難的。從現(xiàn)有的理論和技術(shù)現(xiàn)狀看,通用的、高質(zhì)量的自然語言處理系統(tǒng),仍然是較長期的努力目標,但是針對一定應(yīng)用,具有相當自然語言處理能力的實用系統(tǒng)已經(jīng)出現(xiàn),有些已商品化,甚至開始產(chǎn)業(yè)化。典型的例子有:多語種數(shù)據(jù)庫和專家系統(tǒng)的自然語言接口、各種機器翻譯系統(tǒng)、全文信息檢索系統(tǒng)、自動文摘系統(tǒng)等。

自然語言處理,即實現(xiàn)人機間自然語言通信,或?qū)崿F(xiàn)自然語言理解和自然語言生成是十分困難的。造成困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性。

一個中文文本從形式上看是由漢字(包括標點符號等)組成的一個字符串。由字可組成詞,由詞可組成詞組,由詞組可組成句子,進而由一些句子組成段、節(jié)、章、篇。無論在上述的各種層次:字(符)、詞、詞組、句子、段,……還是在下一層次向上一層次轉(zhuǎn)變中都存在著歧義和多義現(xiàn)象,即形式上一樣的一段字符串,在不同的場景或不同的語境下,可以理解成不同的詞串、詞組串等,并有不同的意義。一般情況下,它們中的大多數(shù)都是可以根據(jù)相應(yīng)的語境和場景的規(guī)定而得到解決的。也就是說,從總體上說,并不存在歧義。這也就是我們平時并不感到自然語言歧義,和能用自然語言進行正確交流的原因。但是一方面,我們也看到,為了消解歧義,是需要極其大量的知識和進行推理的。如何將這些知識較完整地加以收集和整理出來;又如何找到合適的形式,將它們存入計算機系統(tǒng)中去;以及如何有效地利用它們來消除歧義,都是工作量極大且十分困難的工作。這不是少數(shù)人短時期內(nèi)可以完成的,還有待長期的、系統(tǒng)的工作。

以上說的是,一個中文文本或一個漢字(含標點符號等)串可能有多個含義。它是自然語言理解中的主要困難和障礙。反過來,一個相同或相近的意義同樣可以用多個中文文本或多個漢字串來表示。

因此,自然語言的形式(字符串)與其意義之間是一種多對多的關(guān)系。其實這也正是自然語言的魅力所在。但從計算機處理的角度看,我們必須消除歧義,而且有人認為它正是自然語言理解中的中心問題,即要把帶有潛在歧義的自然語言輸入轉(zhuǎn)換成某種無歧義的計算機內(nèi)部表示。

歧義現(xiàn)象的廣泛存在使得消除它們需要大量的知識和推理,這就給基于語言學(xué)的方法、基于知識的方法帶來了巨大的困難,因而以這些方法為主流的自然語言處理研究幾十年來一方面在理論和方法方面取得了很多成就,但在能處理大規(guī)模真實文本的系統(tǒng)研制方面,成績并不顯著。研制的一些系統(tǒng)大多數(shù)是小規(guī)模的、研究性的演示系統(tǒng)。

目前存在的問題有兩個方面:一方面,迄今為止的語法都限于分析一個孤立的句子,上下文關(guān)系和談話環(huán)境對本句的約束和影響還缺乏系統(tǒng)的研究,因此分析歧義、詞語省略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明確規(guī)律可循,需要加強語用學(xué)的研究才能逐步解決。另一方面,人理解一個句子不是單憑語法,還運用了大量的有關(guān)知識,包括生活知識和專門知識,這些知識無法全部貯存在計算機里。因此一個書面理解系統(tǒng)只能建立在有限的詞匯、句型和特定的主題范圍內(nèi);計算機的貯存量和運轉(zhuǎn)速度大大提高之后,才有可能適當擴大范圍。

以上存在的問題成為自然語言理解在機器翻譯應(yīng)用中的主要難題,這也就是當今機器翻譯系統(tǒng)的譯文質(zhì)量離理想目標仍相差甚遠的原因之一;而譯文質(zhì)量是機譯系統(tǒng)成敗的關(guān)鍵。中國數(shù)學(xué)家、語言學(xué)家周海中教授曾在經(jīng)典論文《機器翻譯五十年》中指出:要提高機譯的質(zhì)量,首先要解決的是語言本身問題而不是程序設(shè)計問題;單靠若干程序來做機譯系統(tǒng),肯定是無法提高機譯質(zhì)量的;另外在人類尚未明了大腦是如何進行語言的模糊識別和邏輯判斷的情況下,機譯要想達到“信、達、雅”的程度是不可能的。

自然語言處理常用方法舉例說明

自然語言處理或者是文本挖掘以及數(shù)據(jù)挖掘,近來一直是研究的熱點。很多人相想數(shù)據(jù)挖掘,或者自然語言處理,就有一種莫名的距離感。其實,走進去你會發(fā)現(xiàn)它的美,它在現(xiàn)實生活中解決難題的應(yīng)用之美,跟它相結(jié)合的數(shù)學(xué)之美,還有它與統(tǒng)計學(xué)的自然融合。語言只是一種實現(xiàn)工具,真正難度的是模型的理解和對模型的構(gòu)建。

下面將舉例自然語言常用方法小結(jié)(JAVA實現(xiàn),C#類似)

1、實體的基本使用

2、批量讀取目錄下的文件

 

3、讀取單個文件

 

4 文件預(yù)處理,并以字符串結(jié)果返回

 

5 指定保存文件

 

6 詞頻排序(中英文通用)

 

7 根據(jù)字符有序排列

8 停用詞處理如何判斷?

擴展改進與移植展望:

本項目由于實際需求,對其做了初步完善?;咀匀徽Z言處理方法和流程都包含了,諸如詞頻統(tǒng)計,停用詞處理,單詞統(tǒng)計,還有文件的基本操作,再結(jié)合數(shù)學(xué)模型或者統(tǒng)計模型可以做復(fù)雜的自然語言或者文本處理。比如樸素貝葉斯分類,首先弄明白貝葉斯分類模型,其實就是對貝葉斯公式的理解和推導(dǎo)。之后結(jié)合本項目詞頻統(tǒng)計文件操作,數(shù)據(jù)清洗,中文分詞,停用詞處理就做出來了。再如,本體構(gòu)建,也是需要對數(shù)據(jù)清洗,詞頻統(tǒng)計,結(jié)果發(fā)射概率和轉(zhuǎn)移概率,文本標注等實現(xiàn)。

至于本算法改進,可以對翻譯部分改進,一種基于詞庫的檢索,包括詞性,詞義,詞標等匹配。另外一種是對英文詞組的分詞處理,利用英文分詞解決。移植方面,可以利用C#語言在窗體上開發(fā),最后打包應(yīng)用軟件。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫毥谦F公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉
關(guān)閉