基于HMM的連續(xù)小詞量語音識別系統(tǒng)的研究

時(shí)間：2011-07-09 22:38:56

關(guān)鍵字：語音識別系統(tǒng) HM BSP 語音信號

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]摘要：為了提高語音識別效率及對環(huán)境的依賴性，文章對語音識別算法部分和硬件部分做了分析與改進(jìn)，采用ARMS3C2410微處理器作為主控制模塊，采用UDA1314TS音頻處理芯片作為語音識別模塊，利用HMM聲學(xué)模型及Viterbi算法

摘要：為了提高語音識別效率及對環(huán)境的依賴性，文章對語音識別算法部分和硬件部分做了分析與改進(jìn)，采用ARMS3C2410微處理器作為主控制模塊，采用UDA1314TS音頻處理芯片作為語音識別模塊，利用HMM聲學(xué)模型及Viterbi算法進(jìn)行模式訓(xùn)練和識別，設(shè)計(jì)了一種連續(xù)的、小詞量的語音識別系統(tǒng)。實(shí)驗(yàn)證明，該語音識別系統(tǒng)具有較高的識別率和一定程度的魯棒性，實(shí)驗(yàn)室識別率和室外識別率分別達(dá)到95．6％，92．3％。
關(guān)鍵詞：語音識別；嵌入式系統(tǒng)；Hidden Markov Models；ARM；Viterbi算法

0 引言
    嵌入式語音識別系統(tǒng)是應(yīng)用各種先進(jìn)的微處理器在板級或是芯片級用軟件或硬件實(shí)現(xiàn)的語音識別。嵌入式技術(shù)與語音識別技術(shù)相結(jié)合，能使人們甩掉鍵盤，通過語音命令對智能化終端進(jìn)行操作，人與智能化終端之間的這種自然快捷的交互方式有助于提高人機(jī)交互的效率，以適應(yīng)嵌入式平臺存儲資源少，實(shí)時(shí)性要求高的特點(diǎn)，增強(qiáng)人對智能化設(shè)備的控制，同時(shí)，在語音識別技術(shù)發(fā)展過程中又以HMM的廣泛應(yīng)用為特點(diǎn)。該算法通過對大量語音數(shù)據(jù)進(jìn)行數(shù)據(jù)統(tǒng)計(jì)，建立識別詞條的統(tǒng)計(jì)模型，然后從待識別語音中提取特征，與這些模型匹配，通過比較匹配概率，以獲得識別結(jié)果，通過建立大量的語音數(shù)據(jù)庫，就能獲得一個(gè)穩(wěn)健的統(tǒng)計(jì)模型，提高在各種實(shí)際情況下的識別效率。

1 Markov鏈及隱馬爾可夫模型(HMM)
    語音信號是一個(gè)可觀察的序列，在足夠小時(shí)間段上特性近似于穩(wěn)定，但其總的過程可看作依次從相對穩(wěn)定的某一特性過渡到另一特性，在整個(gè)分析區(qū)間內(nèi)可將許多線性模型串接起來，這就是Markov鏈。Markov鏈?zhǔn)荕arkov隨機(jī)過程的特殊情況，即Markov鏈?zhǔn)綘顟B(tài)和時(shí)間參數(shù)都離散的Markov過程。
    隱馬爾可夫模型是對語音信號的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型，可將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程：一個(gè)是用具有有限狀態(tài)數(shù)的Mar-kov鏈來模擬語音信號統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程，另一個(gè)是與Mark-ov鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測序列的隨機(jī)過程。前者通過后者表現(xiàn)出來，但前者的具體參數(shù)是不可測的。
    一般來說，一個(gè)HMM是一個(gè)雙重隨機(jī)過程，由下述五個(gè)參數(shù)描述：

2 基于HMM的語音識別系統(tǒng)實(shí)現(xiàn)
    人的言語過程實(shí)際上就是一個(gè)雙重隨機(jī)過程，語音信號本身是一個(gè)可觀測的時(shí)變序列，是由大腦根據(jù)語法知識和言語需要(不可觀測的狀態(tài))發(fā)出音素的參數(shù)流。HMM合理地模仿了這一過程，很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性，是較為理想的一種語音模型。從整段語音來看，人類語音是一個(gè)非平穩(wěn)的隨機(jī)過程，但是若把整段語音分割成若干短時(shí)語音信號，則可認(rèn)為這些短時(shí)語音信號是平穩(wěn)過程，就可以用線性手段對這些短時(shí)語音信號進(jìn)行分析。若對這些語音信號建立隱馬爾可夫模型，則可以辯識具有不同參數(shù)的短時(shí)平穩(wěn)信號段，并可以跟蹤它們之間的轉(zhuǎn)化，從而解決了對語音的發(fā)音速率及聲學(xué)變化建立模型的問題。
    語音識別系統(tǒng)首先通過芯片內(nèi)的A／D轉(zhuǎn)換器將模擬語音信號轉(zhuǎn)化為數(shù)字語音信號，然后對數(shù)字語音信號進(jìn)行處理(信號加窗、過濾)，得到干凈的語音信號，再通過特征提取過程做出特征矢量，提取語音特征，最后由識別過程對說話人語音進(jìn)行識別，得出識別結(jié)果?？傮w來說，整個(gè)識別過程分為語音信號的預(yù)處理、語音信號的特征提取、語音庫的建立以及語音信號的識別等幾個(gè)主要階段，如圖1所示。

語音識別過程分為兩個(gè)部分：一是HMM訓(xùn)練過程，得到HMM語音識別模型，即建立基本識別語音庫；二是HMM識別過程，得到語音識別結(jié)果。[!--empirenews.page--]
2．1 HMM訓(xùn)練
HMM算法是解決識別問題的一種常用方法。一個(gè)HMM模型中有N個(gè)狀態(tài)，對于一個(gè)長度為T的觀察序列，如果按照定義來計(jì)算，需要2TNT次運(yùn)算，這種運(yùn)算量是不能接受的，而HMM算法可以簡化這個(gè)過程。

[!--empirenews.page--]

    如果P(O／λZ)和距離太大，則返回步驟(2)，反復(fù)迭代運(yùn)算，直到HMM模型參數(shù)不再發(fā)生明顯的變化為止。
2．2 HMM模型識別
    HMM模型的輸出概率用Viterbi算法計(jì)算，因?yàn)楦怕手狄话愣歼h(yuǎn)小于1，這里用取對數(shù)后的概率作為輸出值：

    以上式中δt(i)表示t時(shí)刻第i個(gè)狀態(tài)的累積輸出概率；φt(i)表示t時(shí)刻第i個(gè)狀態(tài)的前續(xù)狀態(tài)號；為最優(yōu)狀態(tài)序列中t時(shí)刻所處的狀態(tài)；P*為最終的輸出概率。

3 實(shí)驗(yàn)結(jié)果
    系統(tǒng)首先通過語音錄入模塊的麥克風(fēng)將語音信號輸入U(xiǎn)DA1341 TS數(shù)字音頻處理芯片，通過S3C2410向UDA1341數(shù)字音頻處理芯片發(fā)送指令，數(shù)字音頻處理芯片由內(nèi)部A／D對語音信號進(jìn)行采樣，調(diào)用語音壓縮算法對語音信號進(jìn)行壓縮，并調(diào)用語音識別函數(shù)API對輸入語音進(jìn)行基于模式匹配算法的語音識別，最終UDA1341數(shù)字音頻處理芯片將識別結(jié)果通過I／O傳送到ARM S3C2410，S3C2410接收到識別結(jié)果后，根據(jù)不同的識別結(jié)果再向UDA1341 TS發(fā)送不同指令，以此實(shí)現(xiàn)語音識別系統(tǒng)的功能。
    系統(tǒng)采用三星的S3C2410作為嵌入式CPU，這是一款高性價(jià)比、低功耗、高性能、高集成度的CPU，基于ARM9核，主頻為203 MHz，專為網(wǎng)絡(luò)通信和手持設(shè)備而設(shè)計(jì)，能滿足語音識別系統(tǒng)中的低成本、低功耗、高性能、小體積的要求。
    實(shí)驗(yàn)采用10字中文數(shù)碼，分別在室外環(huán)境和實(shí)驗(yàn)室環(huán)境下測試，結(jié)果如表1所示。

    通過測試表明，在實(shí)驗(yàn)室環(huán)境下該系統(tǒng)在UDA1314TS DSP芯片上得到的結(jié)果比較令人滿意，具有良好的魯棒性，識別率達(dá)到實(shí)用要求，但在室外較高噪音條件下的識別率相對實(shí)驗(yàn)室環(huán)境下有一定差距，滿足語音識別基本要求。

4 結(jié)論
    本文系統(tǒng)采用隱馬爾可夫模型的語音識別算法，能夠?qū)π≡~量、連續(xù)語音進(jìn)行識別，識別率較高。ARMS3C2410微處理器和UDA1314TS音頻處理芯片的結(jié)合應(yīng)用，能使本語音識別系統(tǒng)具有較強(qiáng)的實(shí)時(shí)性。體積小，攜帶方便，使用靈活，可移植性強(qiáng)的特點(diǎn)使系統(tǒng)在進(jìn)一步改進(jìn)和發(fā)展后能夠用于工業(yè)語音控制領(lǐng)域中，還可用于聲控玩具、聲控設(shè)備等人們的日常生活中。
    但由于技術(shù)水平和硬件環(huán)境的限制，該語音識別系統(tǒng)在算法、硬件方面都需要進(jìn)一步的研究和完善。該嵌入式語音識別系統(tǒng)的研究為進(jìn)一步開發(fā)和研究實(shí)用性嵌入式語音識別系統(tǒng)做出了重要的嘗試和探索工作。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系本站刪除。

換一批

優(yōu)克聯(lián)全球品牌GlocalMe亮相德國IFA 2025----全面呈現(xiàn)榮獲諸多殊榮的創(chuàng)新互聯(lián)解決方案

柏林2025年9月9日 /美通社/ -- 2025年9月5日，納斯達(dá)克上市公司優(yōu)克聯(lián)集團(tuán)（NASDAQ: UCL）旗下全球互聯(lián)品牌GlocalMe，正式亮相柏林國際消費(fèi)電子展（IFA 2025），重磅推出融合企...

關(guān)鍵字： LOCAL LM BSP 移動網(wǎng)絡(luò)

[美通社全球TMT]

智能破界萬物共生|2025慧聰品牌評選【獎項(xiàng)申報(bào)】火熱開啟

深圳2025年9月9日 /美通社/ -- PART 01活動背景當(dāng)技術(shù)的鋒芒刺穿行業(yè)壁壘，萬物互聯(lián)的生態(tài)正重塑產(chǎn)業(yè)疆域。2025年，物聯(lián)網(wǎng)產(chǎn)業(yè)邁入?"破界創(chuàng)造"與"共生進(jìn)化"?的裂變時(shí)代——AI大模型消融感知邊界，...

關(guān)鍵字： BSP 模型微信 AIOT

[美通社全球TMT]

破局出海新賽道：深圳出口論壇解碼商機(jī)、合規(guī)與創(chuàng)新之道

"出海無界商機(jī)無限"助力企業(yè)構(gòu)建全球競爭力深圳2025年9月9日 /美通社/ -- 2025年8月28日，由領(lǐng)先商業(yè)管理媒體世界經(jīng)理人攜手環(huán)球資源聯(lián)合主辦、深圳?前海出海e站通協(xié)辦的...

關(guān)鍵字：解碼供應(yīng)鏈 AI BSP

[美通社全球TMT]

TüV萊茵在IFA為Shokz韶音開放式耳機(jī)及京蛙JONR掃地機(jī)器人頒發(fā)認(rèn)證

柏林2025年9月9日 /美通社/ -- 柏林當(dāng)?shù)貢r(shí)間9月6日，在2025德國柏林國際電子消費(fèi)品展覽會（International Funkausstellung...

關(guān)鍵字：掃地機(jī)器人耳機(jī) PEN BSP

[美通社全球TMT]

武漢站告捷！慧聰品牌巡展掀起智能生態(tài)新篇

武漢2025年9月9日 /美通社/ -- 7月24日，2025慧聰跨業(yè)品牌巡展——湖北?武漢站在武漢中南花園酒店隆重舉辦！本次巡展由慧聰安防網(wǎng)、慧聰物聯(lián)網(wǎng)、慧聰音響燈光網(wǎng)、慧聰LED屏網(wǎng)、慧聰教育網(wǎng)聯(lián)合主辦，吸引了安防、...

關(guān)鍵字： AI 希捷 BSP 平板

[美通社全球TMT]

自研實(shí)力獲權(quán)威認(rèn)可：移遠(yuǎn)自研DynaBlue藍(lán)牙協(xié)議棧斬獲BQB 6.1認(rèn)證

上海2025年9月9日 /美通社/ -- 9月8日，移遠(yuǎn)通信宣布，其自研藍(lán)牙協(xié)議棧DynaBlue率先通過藍(lán)牙技術(shù)聯(lián)盟（SIG）BQB 6.1標(biāo)準(zhǔn)認(rèn)證。作為移遠(yuǎn)深耕短距離通信...

關(guān)鍵字：藍(lán)牙協(xié)議棧移遠(yuǎn)通信 COM BSP

[美通社全球TMT]

上海外服攜AI智能體求職助手"凌佳佳"亮相上海市第二屆人力資源服務(wù)業(yè)創(chuàng)新發(fā)展大會

上海2025年9月9日 /美通社/ -- 為全面落實(shí)黨中央、國務(wù)院和上海市委、市政府關(guān)于加快發(fā)展人力資源服務(wù)業(yè)的決策部署，更好發(fā)揮人力資源服務(wù)業(yè)賦能百業(yè)作用，8月29日，以"AI智領(lǐng) HR智鏈靜候你來&quo...

關(guān)鍵字：智能體 AI BSP 人工智能

[美通社全球TMT]

易生支付賦能"旗馭車管" 助力一汽出行構(gòu)建智能化車管平臺

北京2025年9月8日 /美通社/ -- 近日，易生支付與一汽出行達(dá)成合作，為其自主研發(fā)的"旗馭車管"車輛運(yùn)營管理平臺提供全流程支付通道及技術(shù)支持。此次合作不僅提升了平臺對百余家企業(yè)客戶的運(yùn)營管理效率...

關(guān)鍵字：一汽智能化 BSP SAAS

[美通社全球TMT]

晶泰科技助力智擎生技新一代"合成致死"新藥獲臨床實(shí)驗(yàn)審批，AI 制藥再迎里程碑

深圳2025年9月8日 /美通社/ -- 晶泰科技（2228.HK）今日宣布，由其助力智擎生技制藥（PharmaEngine, Inc.）發(fā)現(xiàn)的新一代PRMT5抑制劑PEP0...

關(guān)鍵字：泰科 AI MT BSP

[美通社全球TMT]

未來出行?智領(lǐng)交通----2025中國工博會-智行未來展將于上海舉辦

上海2025年9月5日 /美通社/ -- 由上海市經(jīng)濟(jì)和信息化委員會、上海市發(fā)展和改革委員會、上海市商務(wù)委員會、上海市教育委員會、上海市科學(xué)技術(shù)委員會指導(dǎo)，東浩蘭生（集團(tuán)）有限公司主辦，東浩蘭生會展集團(tuán)上海工業(yè)商務(wù)展覽有...

關(guān)鍵字：電子 BSP 芯片自動駕駛