www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 嵌入式 > 嵌入式教程
[導讀]一種文檔圖像檢索算法設(shè)計和實現(xiàn)

摘  要: 介紹了一種基于版面結(jié)構(gòu)距離的文檔圖像檢索算法,使用版面特征作為文檔圖像的特征檢索圖像。先將文檔圖像進行梯度和最大梯度差(MGD)計算,然后使用MGD值作為一個窗口對文本區(qū)域進行融合,將文檔圖像以行線的形式標示出來。同時給出了檢索的匹配方法,并對匹配方法進行了實驗。實驗結(jié)果表明,該檢索方法具有較高的查準率,具有很好的抗傾斜和抗縮放效果。

  文檔圖像一般意為含有文字信息的圖像,目前大多數(shù)信息是以數(shù)字化形式存在的,并以文檔的形式組織起來存放在數(shù)據(jù)庫中。在這樣的數(shù)據(jù)庫中查找有關(guān)資料其技術(shù)是關(guān)鍵。常見的文檔圖像檢索方法是基于內(nèi)容的文檔圖像檢索(CBIR)。它是利用圖像本身的信息,通常以圖像特征(顏色、紋理、形狀、結(jié)構(gòu)布局和語義特征等)的相似性為檢索依據(jù),根據(jù)每幅圖像都有的可比較特征進行檢索。

  近年來,數(shù)字化文檔被廣泛應(yīng)用于辦公自動化、數(shù)字化圖書館、工業(yè)自動化等領(lǐng)域。隨著科技的發(fā)展,傳統(tǒng)掃描儀體積大、效率低、攜帶不方便等不足之處日益突出,而數(shù)字照相機體積小、價位低,可以很容易地攜帶并結(jié)合到手機、 手提電腦以及各種網(wǎng)絡(luò)設(shè)備中去,它還可以遠距離地對背景文字及脆弱的珍貴文檔拍照, 更適用于無約束環(huán)境下的數(shù)字化操作。因此,將數(shù)字照相機引入文檔圖像分析已經(jīng)引起越來越多人的關(guān)注。

  Newman的調(diào)查表明,從報紙上提取段落時,基于PC攝像頭的OCR操作比基于掃描儀的OCR操作效率高得多;Fisher等調(diào)查了在戰(zhàn)場上用數(shù)字攝像機替換士兵攜帶sheet-fed掃描儀的可能性。經(jīng)證實,數(shù)字攝像機能夠以200dpi拍攝整張A4文檔紙,已經(jīng)達到OCR所要求的分辨率。

  BEUSEKOM J V.等人提出了一種基于版面分析的文檔圖像檢索的距離度量方法,將文本區(qū)域分為不同的矩形塊,然后找到塊的中心點,利用角點的曼哈頓距離來計算塊之間的距離,再利用三種不同的方法進行匹配[1];WONG K Y.使用游程平滑算法進行版面信息提取的方法[2];BREUEL T M.提出了使用Whitespace算法來提取版面信息[3]。

  圖像匹配是指通過一定的匹配算法在兩幅或多幅圖像之間識別同名點,如二維圖像匹配中通過比較目標區(qū)和搜索區(qū)中相同大小的窗口的相關(guān)系數(shù),取搜索區(qū)中相關(guān)系數(shù)最大所對應(yīng)的窗口中心點作為同名點。其實質(zhì)是在基元相似性的條件下,運用匹配準則的最佳搜索問題。

  灰度匹配的基本思想:以統(tǒng)計的觀點將圖像看成是二維信號,采用統(tǒng)計相關(guān)的方法尋找信號間的相關(guān)匹配。利用兩個信號的相關(guān)函數(shù),評價它們的相似性以確定同名點。

  灰度匹配通過利用某種相似性度量,如相關(guān)函數(shù)、協(xié)方差函數(shù)、差平方和、差絕對值和等測度極值,判定兩幅圖像中的對應(yīng)關(guān)系。

  最經(jīng)典的灰度匹配法是歸一化的灰度匹配 法,其基本原理是逐像素的把一個以一定大小的實時圖像窗口的灰度矩陣,與參考圖像的所有可能的窗口灰度陣列,按某種相似性度量方法進行搜索比較的匹配方法,從理論上說就是采用圖像相關(guān)技術(shù)。

  利用灰度信息匹配方法的主要缺陷是計算量太大,因為使用場合一般都有一定的速度要求,所以這些方法很少被使用?,F(xiàn)在已經(jīng)提出了一些相關(guān)的快速算法,如幅度排序相關(guān)算法,F(xiàn)FT相關(guān)算法和分層搜索的序列判斷算法等。

  1 相關(guān)工作

  1.1 文本行標記

  將得到的文檔圖像進行預處理,具體的處理方法是:使用文本行標記算法實現(xiàn)文字區(qū)域的行定位。本文使用[-1,0,1]對圖像進行處理計算其梯度,然后計算其MGD。MGD計算方法如下:在一個大小為n的窗口內(nèi),用它的最大梯度差來進行填充,以達到文本融合的目的。因為英文和中文的字符寬度不同,根據(jù)具體的情況選擇n,大于字符間距即可。將計算出來的梯度求它的最大值和最小值,然后相減,即為最大梯度差。將得到的MGD圖像使用最大類間方差方法[5](OTSU)求出閾值得到二值圖像[2]。圖1為使用上述方法對行塊進行標記的圖像。

  1.2 消除階躍跳變

  對于手寫體或者英文的文檔,會出現(xiàn)字符高低不一、筆畫不連續(xù)等情況。線特征產(chǎn)生的斷點可采用形態(tài)學方法、凸凹點處理和噪聲處理三種基本策略提高直線的連續(xù)性,然后采用階梯插補算法來消除階躍跳變,算法的復雜度相對較低。

  在像素級上進行處理是:當出現(xiàn)行階躍跳變的情況時,使用如圖2的模板來對其進行填充。因為文檔圖像的行塊在4個方向上都有可能出現(xiàn)這種階躍,所以采用一個3×3的模板,以位置5為中心點,如圖3所示,4種情況都包含其中:1和4為非文本像素,對4進行填充;3和6為非文本像素,對6進行填充;4和7為非文本像素,對4進行填充;6和9為非文本像素,對6進行填充。如果填充之后依然有符合結(jié)構(gòu)的像素,則繼續(xù)填充,即把需要填充的區(qū)域都填充完整。填充前后的圖像如圖4所示。

[!--empirenews.page--]

  1.3 行線標記

  通過對得到的二值圖像的行跳變的填補,文本行的變化相對比較平滑,這有利于行線的標記。本方法取每個文本行的下邊緣來作為行線。因為背景區(qū)域為黑色,文字區(qū)域為白色,所以對文檔圖像進行掃描,從黑色區(qū)域進入白色區(qū)域時所遇到的第一個像素進行標記,這樣就把每一行的行線標記出來了,所得到的行線是單像素的。這種方法的優(yōu)點是可以抗傾斜。

  圖5(a)為對圖1中的圖像中的行用直線的方式標記出來。為了驗證提取出的行線與原圖是否一致,將它與原圖(如圖5(b)所示)進行了匹配,可以看出,所得結(jié)果是比較滿意的。

  2 匹配算法

  本文所采用的方法是將行線抽象為空間中的一個點,點的灰度值定義為行線的長度。全局匹配模式考慮版面的加權(quán)平均,用于全局位置進行匹配,這個過程相當于文本區(qū)定位過程。局部匹配模式是定義兩個行在位置、尺寸上的變化情況,通過位置優(yōu)先(版面)得到匹配模式,進而對匹配誤差能量進行計算。

  匹配方法轉(zhuǎn)化為兩組點之間的匹配定義問題,點模式簡化了問題的復雜性,只包含了版面結(jié)構(gòu)信息、長度信息和尺寸信息。

  中心點加權(quán)匹配方式不能完全解決問題,圖像在兩個尺度上的縮放對這種方式影響極大。使用歸一化的尺寸可部分解決這個問題,但歸一化后仍需計算中心點的位置,通過中心點進行坐標轉(zhuǎn)換,使用坐標轉(zhuǎn)換后的新的點模式對差異性進行度量。

  每一行起始坐標的相對坐標是(xi′,yi′),xi′=xi-x0,yi′=yi-y0。圖6為將行線抽象為空間中的點的圖像,其中亮度代表該行的長度,位置為起點坐標。

 ?。?)距離匹配模式計算

  將兩個頁面的中心點對齊,從第一個頁面的第一行開始,與另一個頁面每行進行比較。假如另一個頁面的相對坐標是(uj′,vj′),j=0,…,n-1,每行長度為wj。計算兩個待比較頁面的坐標及長度的差Δxi、Δyi、Δzi,其中:Δxi=xi′-uj′,Δyi=yi′-vj′,Δzi=zi-wj。則定義差異能量為:

  dEnerge(i)=Δxi+Δyi+Δzi

  將第一個頁面的第一行與第二個頁面的每一行進行比較,得到n個差異能量,求這n個差異能量的最小值min(dEnerge(i))。第一個頁面共有m行,將得到m個值,對其求和:

  不匹配的情況經(jīng)常發(fā)生,例如一個圖像中含有4個點模式,另一個圖像中含有10個點模式,內(nèi)部點模式之間具有結(jié)構(gòu)相關(guān)性,結(jié)構(gòu)上的相關(guān)性定義為點模式位置掩模距離,該距離用來度量點模式全局匹配能力。如果一個點模式為另一個點模式的子模式,則該方法實現(xiàn)子圖檢索功能,模式距離最小時,產(chǎn)生最佳匹配。最佳匹配時,產(chǎn)生更為細致的行線檢索能力。使用掩模方法是為了產(chǎn)生更好的查準率。[!--empirenews.page--]

  3 實驗結(jié)果與分析

  應(yīng)用上述方法進行了實驗,數(shù)據(jù)為手寫體英文,數(shù)據(jù)采集分辨率為100 dpi,256級灰度圖像,數(shù)據(jù)量為100幅文檔圖像。對不同的圖像分別比較它們的相似度。圖7(b)、(c)、(d)是與圖7(a)的相似度分別為40.422 9、45.760 7和43.407 8的圖像。圖8(b)、(c)、(d)是與圖8(a)原圖像版面結(jié)構(gòu)相似的幾種圖像類型。圖9(b)、(c)、(d)是與圖9(a)原圖像版面結(jié)構(gòu)具有差異的幾種圖像類型。

  本文使用對100幅文檔圖像兩兩進行版面結(jié)構(gòu)的匹配,共有4 950種結(jié)果。實驗結(jié)果表明,兩種不同版面的能量差異最大的在340左右,如圖10所示。橫坐標顯示的是100幅圖像兩兩匹配出現(xiàn)的情況的數(shù)目,可以取到的最大坐標為4 950,縱坐標為各匹配情況對應(yīng)的能量差異,最大值350。從圖中可以看出能量差異主要集中在50~200之間。

  各個能量點的頻數(shù)的直方圖如圖11所示,圖中橫坐標為能量差異數(shù)據(jù),最大為340左右,提取到350。縱坐標為取到各個能量的情況的數(shù)目的累加。從圖11可以更直觀地觀察到能量差異在50~200之間的數(shù)目最多。

  實驗結(jié)果表明:(1)文檔圖像的版面結(jié)構(gòu)具有相對的穩(wěn)定性。(2)點匹配模式計算了最小距離,可有效表示圖像的文本行基本信息。(3)距離匹配較為簡單,使用了三個維度的一維距離,有較好的區(qū)分性。對距離計算統(tǒng)計表明,具有正態(tài)分布特性。(4)點匹配模式需進一步進行研究,算法的復雜度需進一步降低,以進行實時圖像處理。

  本文針對文檔圖像的檢索方法進行了研究,提出一種文檔圖像檢索的新方法。分析了文檔圖像版面特性,使用分割方法確定文本行,將文本行進行標記,找出頁面的中心點坐標,中心點坐標將文本行的長度作為權(quán)重考慮在內(nèi),得到相對坐標。根據(jù)相對坐標和文本行長度得到一個差異能量,根據(jù)差異能量來進行匹配。并對該方法進行了實驗和結(jié)果分析。本方法的優(yōu)點是,當文檔的行出現(xiàn)傾斜和縮放時,不影響匹配的進行。但需要進一步降低所用的點匹配模式時間復雜度,以進行實時圖像處理。



 

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

廣州2025年9月12日 /美通社/ -- 9月11日,由國際獨立第三方檢測、檢驗和認證機構(gòu)德國萊茵TÜV大中華區(qū)(簡稱"TÜV萊茵"...

關(guān)鍵字: 數(shù)字化 供應(yīng)鏈 控制 電子

北京2025年9月10日 /美通社/ -- 以"智領(lǐng)工業(yè) 全球互聯(lián)"為主題的2025全球工業(yè)互聯(lián)網(wǎng)融合發(fā)展交流大會于9月6日在中國東北遼寧省沈陽市舉行。 圖為2025全球工業(yè)互聯(lián)網(wǎng)融合發(fā)展交流大會9月6日于遼寧沈陽舉辦...

關(guān)鍵字: 工業(yè)互聯(lián)網(wǎng) 數(shù)字化 COM HTML

北京2025年9月10日 /美通社/ -- 近日,第三方支付全牌照企業(yè)易生支付與智慧停車頭部平臺捷停車達成深度合作。雙方依托易生支付高并發(fā)接口支撐、全渠道聚合支付及實時清算核心技術(shù)能力,結(jié)合捷停車覆蓋全國數(shù)萬個智慧停車場...

關(guān)鍵字: 數(shù)字化 智慧停車 APP 智慧城市

澳大利亞墨爾本2025年9月9日 /美通社/ -- 在墨爾本舉行的第十四屆世界商會大會(World Chambers Congress)上,Epitome Global創(chuàng)始人兼全球董事總經(jīng)理Jan Lambrechts向...

關(guān)鍵字: AN AI GLOBAL PI

北京2025年9月8日 /美通社/ -- 近日,富士膠片商業(yè)創(chuàng)新(中國)有限公司與上海合合信息科技股份有限公司達成合作。富士膠片商業(yè)創(chuàng)新(中國)推出集成合合信息AI智能文檔抽取、鴻翼文檔云元數(shù)據(jù)管理的司錄掃描開放中臺,既...

關(guān)鍵字: 富士 AI 數(shù)字化 自動化

大眾汽車集團加速推進生產(chǎn)數(shù)字化轉(zhuǎn)型 數(shù)字化生產(chǎn)平臺(Digital Production Platform)成為大眾汽車的"工廠云",在全球生產(chǎn)基地實現(xiàn)人工智能(AI)與前沿 IT...

關(guān)鍵字: 亞馬遜 大眾汽車 AI 數(shù)字化

慕尼黑和北京2025年9月4日 /美通社/ -- 寶馬集團宣布,新世代首款量產(chǎn)車型BMW iX3將于9月5日全球首發(fā),9月8日震撼亮相慕尼黑車展。中國專屬版車型也將在年內(nèi)與大家見面,2026年在國內(nèi)投產(chǎn)。 寶馬集團董事...

關(guān)鍵字: 寶馬 慕尼黑 BSP 數(shù)字化

無錫2025年8月29日 /美通社/ -- 2025年8月27日,正值中國與瑞士建交75周年這一歷史性時刻,在北京隆重舉辦的中瑞商業(yè)大獎頒獎典禮上,作為中瑞經(jīng)貿(mào)合作的標桿企業(yè),布勒憑借在創(chuàng)新研發(fā)和數(shù)字化轉(zhuǎn)型領(lǐng)域的卓越表現(xiàn)...

關(guān)鍵字: 解碼 數(shù)字化 AN SMART

2025 IPC CEMAC電子制造年會將于9月25日至26日在上海浦東新區(qū)舉辦。年會以“Shaping a Sustainable Future(共塑可持續(xù)未來)”為主題,匯聚國內(nèi)外專家學者、產(chǎn)業(yè)領(lǐng)袖與制造精英,圍繞先...

關(guān)鍵字: PCB AI 數(shù)字化

北京2025年8月28日 /美通社/ -- 8月28日,北京亦莊創(chuàng)新發(fā)布消息,北京經(jīng)濟技術(shù)開發(fā)區(qū)(簡稱"北京經(jīng)開區(qū)",又稱"北京亦莊")創(chuàng)新推出"一張清單、一鏈延伸、一套...

關(guān)鍵字: 接線 數(shù)字化 智能化 模型
關(guān)閉