語音識別在微機(jī)器人控制系統(tǒng)中的應(yīng)用

時(shí)間：2012-05-21 03:07:40

關(guān)鍵字：微機(jī) 機(jī)器人控制系統(tǒng) 語音識別 HM

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]語音識別在微機(jī)器人控制系統(tǒng)中的應(yīng)用

摘要：介紹了一種應(yīng)用于微機(jī)器人控制平臺的語音識別算法，可實(shí)現(xiàn)簡單命令詞語的識別，控制微機(jī)器人的移動。利用K均值分段法，在每次計(jì)算完觀察值最佳狀態(tài)序列后，插入一個(gè)重估過程，隨時(shí)調(diào)整參數(shù)以識別下一個(gè)句子。實(shí)驗(yàn)結(jié)果表明，這種實(shí)時(shí)學(xué)習(xí)的語音識剮算法適合嵌入式應(yīng)用。

關(guān)鍵詞：微機(jī)器人語音識別隱式馬爾可夫模型嵌入式系統(tǒng)

本文基于毫米級全方位無回轉(zhuǎn)半徑移動機(jī)器人課題。微系統(tǒng)配置示意圖如圖1所示。主要由主機(jī)Host(配有圖像采集卡)、兩個(gè)CCD攝像頭(其中一個(gè)為顯微攝像頭)、微移動裝配平臺、微機(jī)器人本體和系統(tǒng)控制電路板等組成。計(jì)算機(jī)和攝像機(jī)組用于觀察微機(jī)器人的方位，控制系統(tǒng)控制微機(jī)器人的移動。

本文在系統(tǒng)控制電路中嵌入式實(shí)現(xiàn)語音識別算法，通過語音控制微機(jī)器人。

微機(jī)器人控制系統(tǒng)的資源有限，控制方法比較復(fù)雜，并且需要有較高的實(shí)時(shí)性，因此本文采用的語音識別算法必須簡單、識別率高、占用系統(tǒng)資源少。

HMM(隱馬爾可夫模型)的適應(yīng)性強(qiáng)、識別率高，是當(dāng)前語音識別的主流算法。使用基于HMM非特定人的語音識別算法雖然借助模板匹配減小了識別所需的資源，但是前期的模板儲存工作需要大量的計(jì)算和存儲空間，因此移植到嵌入式系統(tǒng)還有一定的難度，所以很多嵌入式應(yīng)用平臺的訓(xùn)練部分仍在PC機(jī)上實(shí)現(xiàn)。

為了使訓(xùn)練和識別都在嵌入式系統(tǒng)上實(shí)現(xiàn)，本文給出了一種基于K均值分段HMM模型的實(shí)時(shí)學(xué)習(xí)語音識別算法，不僅解決了上述問題，而且做到了智能化，實(shí)現(xiàn)了真正意義上的自動語音識別。

1增量K均值分段HMM的算法及實(shí)現(xiàn)

由于語音識別過程中非特定的因素較多，為了提高識別的準(zhǔn)確率，針對本系統(tǒng)的特點(diǎn)，采用動態(tài)改變識別參數(shù)的方法提高系統(tǒng)的識別率。

訓(xùn)練算法是HMM中運(yùn)算量最大、最復(fù)雜的部分，訓(xùn)練算法的輸出是即將存儲的模型。目前的語音識別系統(tǒng)大都使用貝斯曼參數(shù)的HMM模型，采取最大似然度算法。這些算法通常是批處理函數(shù)，所有的訓(xùn)練數(shù)據(jù)要在識別之前訓(xùn)練好并存儲。因此很多嵌入式系統(tǒng)因?yàn)橘Y源有限不能達(dá)到高識別率和實(shí)時(shí)輸出。

本系統(tǒng)采用了自適應(yīng)增量K均值分段算法。在每次輸入新的語句時(shí)都連續(xù)地計(jì)算而不對前面的數(shù)據(jù)進(jìn)行存儲，這可以節(jié)約大量的時(shí)間和成本。輸入語句時(shí)由系統(tǒng)的識別結(jié)果判斷輸入語句的序號，并對此語句的參數(shù)動態(tài)地修改，真正做到了實(shí)時(shí)學(xué)習(xí)。

K均值分段算法是基于最佳狀態(tài)序列的理論，因此可以采用Viterbi算法得到最佳狀態(tài)序列，從而方便地在線修改系統(tǒng)參數(shù)，使訓(xùn)練的速度大大提高。

為了達(dá)到本系統(tǒng)所需要的功能，對通常的K均值算法作了一定的改進(jìn)。在系統(tǒng)無人監(jiān)管的情況下，Viterbi解碼計(jì)算出最大相似度的語音模型，根據(jù)這個(gè)假設(shè)計(jì)算分段K均值算法的輸入?yún)?shù)，對此模型進(jìn)行參數(shù)重估。首先按照HMM模型的狀態(tài)數(shù)進(jìn)行等間隔分段，每個(gè)間隔的數(shù)據(jù)段作為某一狀態(tài)的訓(xùn)練數(shù)據(jù)，計(jì)算模型的初始參數(shù)λ=f(a，A，B)。采用Viterbi的最佳狀態(tài)序列搜索，得到當(dāng)前最佳狀態(tài)序列參數(shù)和重估參數(shù)θ，其中概率密度函數(shù)P(X，S|θ)代替了最大似然度算法中的P(X，θ)，在不同的馬爾科夫狀態(tài)和重估之間跳轉(zhuǎn)?；贙均值算法的參數(shù)重估流程如下：

為了使參數(shù)能更快地收斂，在每幀觀察語音最佳狀態(tài)序列的計(jì)算結(jié)束后，加入一個(gè)重估過程，以求更快地響應(yīng)速度。

可以看到，增量K均值算法的特點(diǎn)為：在每次計(jì)算完觀察值最佳狀態(tài)序列后，插入一個(gè)重估過程。隨時(shí)調(diào)整參數(shù)以識別下一個(gè)句子。

由于采用混合高斯密度函數(shù)作為輸出概率分布可以達(dá)到較好的識別效果，因此本文采用M的混合度對數(shù)據(jù)進(jìn)行訓(xùn)練。

對λ重估，并比較收斂性，最終得到HMM模型參數(shù)訓(xùn)練結(jié)果。

可見，用K均值法在線修改時(shí)，一次數(shù)據(jù)輸入會有多次重估過程，這使系統(tǒng)使用最近的模型估計(jì)后續(xù)語句的最佳狀態(tài)序列成為可能。但是對于在線修改參數(shù)要求，快速收斂是很重要的。為了得到更好的Viterbi序列，最佳狀態(tài)序列使用了漸增的算法模型，即快速收斂算法。

語音識別的具體實(shí)現(xiàn)過程為：數(shù)字語音信號通過預(yù)處理和特征向量的提取，用戶通過按鍵選擇學(xué)習(xí)或者識別模式；如果程序進(jìn)入訓(xùn)練過程，即用戶選擇進(jìn)行新詞條的學(xué)習(xí)，則用分段K均值法對數(shù)據(jù)進(jìn)行訓(xùn)練得到模板；如果進(jìn)入識別模式，則從Flash中調(diào)出聲音特征向量，進(jìn)行HMM算法識別。在識別出結(jié)果后，立即將識別結(jié)果作為正確結(jié)果與前一次的狀態(tài)做比較，得到本詞條更好的模板，同時(shí)通過LED數(shù)字顯示和語音輸出結(jié)果。系統(tǒng)軟件流程如圖2所示。

對采集到的語音進(jìn)行16kHz、12位量化，并對數(shù)字語音信號進(jìn)行預(yù)加重：

L選擇為320個(gè)點(diǎn)，用短時(shí)平均能量和平均過零率判斷起始點(diǎn)，去除不必要的信息。

對數(shù)據(jù)進(jìn)行FFT運(yùn)算，得到能量譜，通過24通道的帶通濾波輸出X(k)，然后再通過DCT運(yùn)算，提取12個(gè)MFCC系數(shù)和一階二階對數(shù)能量，提取38個(gè)參數(shù)可以使系統(tǒng)識別率得到提高。

為了進(jìn)行連接詞識別，需要由訓(xùn)練數(shù)據(jù)得到單個(gè)詞條的模型。方法為：首先從連接詞中分離出每個(gè)孤立的詞條，然后再進(jìn)行孤立詞條的模型訓(xùn)練。對于本系統(tǒng)不定長詞條的情況，每個(gè)詞條需要有一套初始的模型參數(shù)，然后按照分層構(gòu)筑的HMM算法將所有詞串分成孤立的詞條。對每個(gè)詞條進(jìn)行參數(shù)的重估，判斷是否收斂。如果差異小于某個(gè)域值就判斷為收斂；否則將得到的參數(shù)作為新的初始參數(shù)再進(jìn)行重估，直到收斂。

2實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)采用30個(gè)人(15男，15女)的聲音模型進(jìn)行識別。首先由10人(5男，5女)對5個(gè)命令詞(前進(jìn)、后退、左移、右移、快速)分別進(jìn)行初始數(shù)據(jù)訓(xùn)練，每人每詞訓(xùn)練10次，得到訓(xùn)練模板。然后再由這30人隨機(jī)進(jìn)行非特定人語音識別。采用6狀態(tài)的HMM模型，高斯混合度選為14，得到圖3的實(shí)驗(yàn)結(jié)果。[!--empirenews.page--]

由圖3可以看出，由于本系統(tǒng)實(shí)時(shí)學(xué)習(xí)的特點(diǎn)，系統(tǒng)的識別率隨著訓(xùn)練數(shù)據(jù)的增加而逐步上升(誤識率下降)。但是當(dāng)實(shí)驗(yàn)數(shù)據(jù)繼續(xù)增多時(shí)，系統(tǒng)的識別率和實(shí)時(shí)性都有下降趨勢。這是由于系統(tǒng)處于無人監(jiān)管狀態(tài)，根據(jù)判斷結(jié)果進(jìn)行參數(shù)重估。如果判斷結(jié)果錯誤，勢必將錯誤帶人參數(shù)重估步驟中。

逐步增加高斯混合度數(shù)目，可以得到圖4的實(shí)驗(yàn)結(jié)果?？梢姼咚够旌隙仍?8的時(shí)候達(dá)到較好的識別效果，混合度太高識別率反而會有所下降，這是由于嵌入式系統(tǒng)的資源有限，運(yùn)算復(fù)雜度的增長超過了嵌入式設(shè)備的限制所造成的。

為了使微機(jī)器人能夠正確地執(zhí)行人的聲音指令，本文將語音識別的過程嵌入微機(jī)器人的控制系統(tǒng)中，根據(jù)微機(jī)器人控制系統(tǒng)資源有限、對實(shí)時(shí)性要求高的特點(diǎn)，使用增量K均值分段HMM的算法，簡化計(jì)算節(jié)省了所需的硬件資源，實(shí)現(xiàn)了實(shí)時(shí)學(xué)習(xí)的語音識別，能方便地對微機(jī)器人進(jìn)行控制。

本系統(tǒng)的識別率達(dá)到了較高的標(biāo)準(zhǔn)，又由于加入了智能化的用戶選擇部分，用戶可隨時(shí)選擇學(xué)習(xí)新的語句，使其有更廣闊的應(yīng)用前景。

由于嵌入式平臺受到處理速度、存儲空間的限制，所以能夠?qū)?strong>微機(jī)器人發(fā)出的指令十分有限，識別率還有待提高。因此，研究語音識別算法，比較各種算法的優(yōu)缺點(diǎn)，進(jìn)而在嵌入式微機(jī)器人控制系統(tǒng)上實(shí)現(xiàn)大詞匯量非特定人的語音識別，實(shí)現(xiàn)真正意義上的人機(jī)交流是今后進(jìn)一步的工作。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時(shí)聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動方式相比，共陰恒流驅(qū)動在能效有哪些優(yōu)勢

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動電源

[電源]

工業(yè)電機(jī)驅(qū)動電源設(shè)計(jì)：反電動勢抑制與過流保護(hù)的集成方案

在工業(yè)自動化蓬勃發(fā)展的當(dāng)下，工業(yè)電機(jī)作為核心動力設(shè)備，其驅(qū)動電源的性能直接關(guān)系到整個(gè)系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動勢抑制與過流保護(hù)是驅(qū)動電源設(shè)計(jì)中至關(guān)重要的兩個(gè)環(huán)節(jié)，集成化方案的設(shè)計(jì)成為提升電機(jī)驅(qū)動性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機(jī) 驅(qū)動電源

[電源]

如何解決 LED 驅(qū)動電源的易損壞問題

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個(gè)照明設(shè)備的使用壽命。然而，在實(shí)際應(yīng)用中，LED 驅(qū)動電源易損壞的問題卻十分常見，不僅增加了維護(hù)成本，還影響了用戶體驗(yàn)。要解決這一問題，需從設(shè)計(jì)、生...

關(guān)鍵字：驅(qū)動電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計(jì)中LED驅(qū)動電源的公式

根據(jù)LED驅(qū)動電源的公式，電感內(nèi)電流波動大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計(jì) 驅(qū)動電源

[汽車電子]

EV主驅(qū)IGBT隔離驅(qū)動電源方案選擇問題探討

電動汽車(EV)作為新能源汽車的重要代表，正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機(jī)驅(qū)動控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機(jī)驅(qū)動系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字：電動汽車新能源驅(qū)動電源

[電源]

合理的驅(qū)動電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進(jìn)步，高亮度白光發(fā)光二極管(LED)因其獨(dú)特的優(yōu)勢逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動電源 LED

[消費(fèi)電子]