www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 工業(yè)控制 > 《機(jī)電信息》
[導(dǎo)讀]摘要:計算機(jī)的發(fā)展令文字傳播愈發(fā)廣泛,生活中越來越多的文字需要錄入電腦,以方便轉(zhuǎn)發(fā)、記錄,為此需要耗費(fèi)大量勞動力,盡管當(dāng)今已經(jīng)有許多文字識別錄入方式,但仍難以達(dá)到日常生活中低精度圖片識別的標(biāo)準(zhǔn)。現(xiàn)主要采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)解決問題,輔以區(qū)域識別,減少圖片本身帶來的影響,再用多分類方式,實現(xiàn)部分區(qū)域生成,拆分任務(wù)一一對應(yīng)識別,令任務(wù)更加高效。也就是說,當(dāng)拿到需要處理的圖片后,先將其用不同大小的卷積核處理,進(jìn)行特征的初提取,再將數(shù)據(jù)放入池化層進(jìn)行特征的進(jìn)一步提取,如此往復(fù)循環(huán)后將數(shù)據(jù)進(jìn)行分類,后經(jīng)處理完成識別。該方法解決了日常生活中書寫文字識別的部分難點(diǎn),讓文字錄入更為方便高效,減少了大量的時間浪費(fèi)。

引言

文字識別是一項十分必要的技術(shù)。我們的計算機(jī)處理計算的能力強(qiáng)大,但強(qiáng)大的計算能力導(dǎo)致需要的輸入量也隨之增大,而對于原始數(shù)據(jù)錄入的水平則相形見絀,大量的人力為此消費(fèi),有時即便浪費(fèi)人力也不能達(dá)到目的,因此有了文字識別的發(fā)展。從20世紀(jì)50年代到今天,人們已經(jīng)從最開始簡單的光學(xué)識別發(fā)展到了現(xiàn)在基于深度學(xué)習(xí)的自然文字識別。

深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)的新領(lǐng)域,根據(jù)建立類似于人腦的層次性的模型,輸入數(shù)據(jù)通過高層一步一步的信息提取,可以通過潛在的信息映射出場景建立之間的聯(lián)系。近些年來,人工智能應(yīng)用于各產(chǎn)業(yè)的自動生產(chǎn),逐漸代替了人工,開辟了新紀(jì)元。在人工生成及制作領(lǐng)域,如何識別自然場景之下的文字也成為了研究的熱點(diǎn)。

自然場景中的文本識別不同于普通的文本識別。普通的文本識別具有排列簡單、背景單一等特點(diǎn),識別起來比較方便,識別的算法比較簡單。自然場景中的文字識別,譬如書寫體文字及自然生活中的文字,具有背景復(fù)雜、文字出現(xiàn)比較雜亂的特點(diǎn),普通算法無法完成此類文字識別。所以,采用基于CNN的文字識別算法抽取文字信息進(jìn)行識別成為了現(xiàn)在比較流行的趨勢,那么增加預(yù)訓(xùn)練也可以一定程度上幫助提高精確度。

RPN是區(qū)域提取網(wǎng)絡(luò),此類網(wǎng)絡(luò)可以抽取圖片的部分區(qū)域(此區(qū)域包含需要判別的文字)。RPN區(qū)域具有分離圖片中的背景及文字的作用,通過RPN可以提取出文字信息,從而進(jìn)行單個文字識別。區(qū)域分為9個前景/背景的可能性,通過不同的長寬比得出感興趣區(qū)域,從而簡單快捷地分離圖片文字及背景信息。

下面通過圖1分析文本文字識別及自然場景下文字識別的區(qū)別,如圖1左邊所示:文本下的文字識別可以看出文字排列非常工整,字與字之間的距離也有明顯的標(biāo)定,字的大小比較固定,字體比較單一。如圖1右邊所示:文本比較雜亂,出現(xiàn)順序的毫無規(guī)律,字的大小不一致,字體不單一,背景也較為雜亂,相對于文本中的文字識別,難度大大提升,需要先提取文字區(qū)域再進(jìn)行文字識別,最終進(jìn)行語言文字內(nèi)容的語義判斷,從而完成整個識別過程,相對來說較為復(fù)雜。

本文主要描述:(1)卷積神經(jīng)網(wǎng)絡(luò)的意義及主要實現(xiàn)過程;(2)區(qū)域提取網(wǎng)絡(luò)如何進(jìn)行前景/背景的識別,以及訓(xùn)練的方式方法和參數(shù);(3)整體流程,如何通過卷積神經(jīng)網(wǎng)絡(luò)及區(qū)域提取網(wǎng)絡(luò)進(jìn)行自然場景下的文字識別;(4)總結(jié)場景文字識別的挑戰(zhàn)及未來前景展望。

1卷積神經(jīng)網(wǎng)絡(luò)(CNN)

對卷積神經(jīng)網(wǎng)絡(luò)的研究可追溯至20世紀(jì)90年代,日本學(xué)者福島邦彥提出的基于生物視覺皮層的neocognition模型,這是一個具有深度結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),并且是最早被提出的深度學(xué)習(xí)算法之一。其中的設(shè)計能夠進(jìn)行特征提取和篩選,部分實現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)中卷積層和池化層的功能,被認(rèn)為是啟發(fā)了卷積神經(jīng)網(wǎng)絡(luò)的開創(chuàng)性研究。

現(xiàn)在的卷積神經(jīng)網(wǎng)絡(luò)由輸入層、隱含層和全連接層組成,輸入層完成對所需數(shù)據(jù)的采集,隱含層完成對數(shù)據(jù)的提取和整理,全連接層將提取到的特征綜合進(jìn)行判斷,完成最終的輸出。隱含層承擔(dān)了整個網(wǎng)絡(luò)的核心提取任務(wù),其中包含了卷積層和池化層,在卷積層中,包含卷積核的大小、步長和填充,這三點(diǎn)決定了輸出的特征,因此可針對我們需要處理的數(shù)據(jù)采用不同的參數(shù)進(jìn)行處理,以達(dá)到更好的效果;在初步提取到數(shù)據(jù)特征后,輸出的數(shù)據(jù)會被傳遞至池化層進(jìn)行特征的選擇及信息的篩選,這一步可為全連接層極大地減少計算量,雖然可能會影響精度,但更加便捷:當(dāng)數(shù)據(jù)經(jīng)過池化層處理后,會送入全連接層處理,全連接層會將數(shù)據(jù)特征進(jìn)行分類,完成最終的特征分類,并最后輸出結(jié)果。

圖2所示為卷積神經(jīng)網(wǎng)絡(luò),可以看出卷積神經(jīng)網(wǎng)絡(luò)是通過滑動窗口(H,W區(qū)域滑動)對于二維信息進(jìn)行提取,最后抽取信息得到具體的文字類別。圖2左側(cè)VGG16是具體的卷積網(wǎng)絡(luò)的框架,16表示具有16層,VGG還包括VGG9、VGG11、VGG13等等。VGG是一種深度卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)架,是牛津大學(xué)在2014年提出的,具有提取深度特征的能力。從圖2右側(cè)可以看到第五層卷積網(wǎng)絡(luò)的特征提取過程。

2區(qū)域提取網(wǎng)絡(luò)(RPN)

區(qū)域提取網(wǎng)絡(luò)是一種全卷積神經(jīng)網(wǎng)絡(luò),此類網(wǎng)絡(luò)通過sGD(隨機(jī)提取下降法)進(jìn)行訓(xùn)練。RPN通過圖片中心及采樣策略訓(xùn)練進(jìn)行小批量訓(xùn)練,樣本中包含各種均勻的正樣本和負(fù)樣本。更新所有待選區(qū)域的損失函數(shù),則會趨向于負(fù)樣本,因為負(fù)樣本會占據(jù)較大比例,因此我們隨機(jī)選擇圖片中的256個區(qū)域,小批量學(xué)習(xí)計算損失函數(shù),其中正樣本及負(fù)樣本比例為1:1。

每個中心點(diǎn)包含9個區(qū)域,其中9個待選區(qū)域包含4個參數(shù)(長寬及中心點(diǎn)(%,y))。對應(yīng)9個待選區(qū)域還對應(yīng)具有2個參數(shù)(0或1對應(yīng)是背景還是前景)。

圖3表示感興趣區(qū)域提取的具體過程,通過模糊文字以及連續(xù)文字,對于文字周邊進(jìn)行畫框,找到文字的具體位置,并確定方向畫出矩形框圖。經(jīng)過選擇的區(qū)域標(biāo)定不一致,有的選擇單個字母作為選擇框,有的選擇單詞作為選擇框,但同樣都能得到較好的選擇區(qū)域及文字識別結(jié)果。

3方法應(yīng)用過程

在識別書寫文字的過程中,首先訓(xùn)練網(wǎng)絡(luò),在前向傳播過程中,輸入的圖形數(shù)據(jù)經(jīng)過多層卷積層的卷積和池化處理,提取出特征向量,將特征向量傳入全連接層中,得出分類識別的結(jié)果。當(dāng)輸出結(jié)果與我們的期望值相符時,則輸出。由于采用梯度下降的訓(xùn)練方式,同時為使訓(xùn)練效果更好,對用作原始數(shù)據(jù)的圖片進(jìn)行預(yù)處理,預(yù)處理主要包括文本朝向判斷調(diào)整、排噪、版面分析、降噪、行列分割、字符識別、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)語義檢測這些方面。圖片的模糊、低精度等問題很可能造成網(wǎng)絡(luò)訓(xùn)練的錯誤,讓識別難以進(jìn)行:調(diào)整文字順序,使文字在同一朝向,給圖片進(jìn)行降噪處理,調(diào)整版面等,可以使圖片更精確,網(wǎng)絡(luò)提取的特征更精確,同時可以減少訓(xùn)練時間,提高準(zhǔn)確度。RNN語義檢測的輔助訓(xùn)練也讓我們的網(wǎng)絡(luò)識別更加高效。

基于卷積神經(jīng)網(wǎng)絡(luò)及區(qū)域提取網(wǎng)絡(luò)的有機(jī)結(jié)合,先通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征壓縮以及信息抽取,繼而通過區(qū)域提取網(wǎng)絡(luò)提取前景信息,再通過提取出的前景信息判斷具體的文字,最后通過RNN進(jìn)行語義檢測進(jìn)而改善網(wǎng)絡(luò)的識別效率,防止連筆字及不清晰的文字難以通過單個字判斷出文字的類別。

為減少我們的工作,圖片經(jīng)處理后進(jìn)行數(shù)據(jù)增強(qiáng)以獲得更多初始數(shù)據(jù),主要采用的方法是將現(xiàn)有圖片數(shù)據(jù)進(jìn)行反轉(zhuǎn)、對稱、旋轉(zhuǎn)、放縮、平移等操作后作為新的圖片,神經(jīng)網(wǎng)絡(luò)對于處理后的圖片會作為新的數(shù)據(jù)進(jìn)行處理,起到訓(xùn)練的效果。此處有一點(diǎn)需要注意:對于二次處理的新照片一定要保證對識別過程有貢獻(xiàn),不能修改成為在識別過程中一定無法看到的情況,防止給網(wǎng)絡(luò)增加無關(guān)數(shù)據(jù),浪費(fèi)計算資源。數(shù)據(jù)沒有問題后,網(wǎng)絡(luò)的輸出值和我們的期望不符時,則進(jìn)行反向傳播過程,求出結(jié)果與期望值的誤差,再將誤差一層一層返回,計算出每一層的誤差,然后進(jìn)行權(quán)值更新。該過程的主要目的是通過訓(xùn)練樣本和期望值來調(diào)整網(wǎng)絡(luò)權(quán)值。當(dāng)網(wǎng)絡(luò)參數(shù)經(jīng)修改,成功輸出我們對輸入的期望時,網(wǎng)絡(luò)訓(xùn)練完成,投入使用。

4結(jié)語

自然場景下的文字識別,對于生活中抓拍圖片的文字識別、物流單子信息的輸入等復(fù)雜場景下的文字識別都具有極大的貢獻(xiàn),可以減少人力、物力的消耗。自然場景下的文字識別具有背景復(fù)雜、文字雜亂等特點(diǎn),所以識別起來比較復(fù)雜,準(zhǔn)確率比不上文本中的文字識別。本文所述基于卷積神經(jīng)網(wǎng)絡(luò)及區(qū)域提取網(wǎng)絡(luò)的文字識別,能通過循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行自然語言的處理(進(jìn)一步精修文字,譬如文字中有個別字模糊或識別不出,可通過循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行自然語言處理,理解上下文進(jìn)行文字的猜測),因而具有較大的現(xiàn)實意義。此類文字識別不只是簡單地進(jìn)行文字識別,同樣進(jìn)行文字的語言精確度的檢測。在未來的發(fā)展中,文字識別會在各行各業(yè)得到應(yīng)用,從而大大減少人力、物力的消耗,具有巨大的、潛在的建設(shè)性價值。

本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關(guān)鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關(guān)鍵字: 汽車 人工智能 智能驅(qū)動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險,如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...

關(guān)鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關(guān)鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字: 華為 12nm EDA 半導(dǎo)體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字: 華為 12nm 手機(jī) 衛(wèi)星通信

要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...

關(guān)鍵字: 通信 BSP 電信運(yùn)營商 數(shù)字經(jīng)濟(jì)

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關(guān)鍵字: BSP 信息技術(shù)
關(guān)閉