智能機器人語音識別技術(shù)

時間：2011-07-19 21:24:15

關(guān)鍵字：智能機器人語音識別技術(shù) BSP HM

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]智能機器人語音識別技術(shù)

摘要：給出了一種由說話者說出控制命令，機器人進行識別理解，并執(zhí)行相應(yīng)動作的實現(xiàn)技術(shù)。在此，提出了一種高準確率端點檢測算法、高精度定點DSP動態(tài)指數(shù)定標算法，以解決定點DSP實現(xiàn)連續(xù)隱馬爾科夫模型CHMM識別算法時所涉及的大量浮點小數(shù)運算問題，提高了定點DSP實現(xiàn)的實時性、精度，及其識別率。
關(guān)鍵詞：智能機器人；語音識別；隱馬爾可夫模型；DSP

0 引言
    語音控制的基礎(chǔ)就是語音識別技術(shù)，可以是特定人或者非特定人的。非特定人的應(yīng)用更為廣泛，對于用戶而言不用訓(xùn)練，因此也更加方便。語音識別可以分為孤立詞識別，連接詞識別，以及大詞匯量的連續(xù)詞識別。對于智能機器人這類嵌入式應(yīng)用而言，語音可以提供直接可靠的交互方式，語音識別技術(shù)的應(yīng)用價值也就不言而喻。

1 語音識別概述
    語音識別技術(shù)最早可以追溯到20世紀50年代，是試圖使機器能“聽懂”人類語音的技術(shù)。按照目前主流的研究方法，連續(xù)語音識別和孤立詞語音識別采用的聲學(xué)模型一般不同。孤立詞語音識別一般采用DTW動態(tài)時間規(guī)整算法。連續(xù)語音識別一般采用HMM模型或者HMM與人工神經(jīng)網(wǎng)絡(luò)ANN相結(jié)合。
    語音的能量來源于正常呼氣時肺部呼出的穩(wěn)定氣流，喉部的聲帶既是閥門，又是振動部件。語音信號可以看作是一個時間序列，可以由隱馬爾可夫模型(HMM)進行表征。語音信號經(jīng)過數(shù)字化及濾噪處理之后，進行端點檢測得到語音段。對語音段數(shù)據(jù)進行特征提取，語音信號就被轉(zhuǎn)換成為了一個向量序列，作為觀察值。在訓(xùn)練過程中，觀察值用于估計HMM的參數(shù)。這些參數(shù)包括觀察值的概率密度函數(shù)，及其對應(yīng)的狀態(tài)，狀態(tài)轉(zhuǎn)移概率等。當參數(shù)估計完成后，估計出的參數(shù)即用于識別。此時經(jīng)過特征提取后的觀察值作為測試數(shù)據(jù)進行識別，由此進行識別準確率的結(jié)果統(tǒng)計。訓(xùn)練及識別的結(jié)構(gòu)框圖如圖1所示。

1. 1 端點檢測
    找到語音信號的起止點，從而減小語音信號處理過程中的計算量，是語音識別過程中一個基本而且重要的問題。端點作為語音分割的重要特征，其準確性在很大程度上影響系統(tǒng)識別的性能。
    能零積定義：一幀時間范圍內(nèi)的信號能量與該段時間內(nèi)信號過零率的乘積。
    能零積門限檢測算法可以在不丟失語音信息的情況下，對語音進行準確的端點檢測，經(jīng)過450個孤立詞(數(shù)字“0～9”)測試準確率為98％以上，經(jīng)該方法進行語音分割后的語音，在進入識別模塊時識別正確率達95％。
    當話者帶有呼吸噪聲，或周圍環(huán)境出現(xiàn)持續(xù)時間較短能量較高的噪聲，或者持續(xù)時間長而能量較弱的噪聲時，能零積門限檢測算法就不能對這些噪聲進行濾除，進而被判作語音進入識別模塊，導(dǎo)致誤識。圖2(a)所示為室內(nèi)環(huán)境，正常情況下采集到的帶有呼氣噪聲的數(shù)字“0～9”的語音信號，利用能零積門限檢測算法得到的效果示意圖。最前面一段信號為呼氣噪聲，之后為數(shù)字“0～9”的語音。

    從圖2(a)直觀的顯示出能零積算法在對付能量較弱，但持續(xù)時間長的噪音無能為力。由此引出了雙門限能零積檢測算法。
    所謂的雙門限能零積算法指的是進行兩次門限判斷。第一門限采用能零積，第二門限為單詞能零積平均值。也即在前面介紹的能零積檢測算法的基礎(chǔ)上再進行一次能零積平均值的判決。其中，第二門限的設(shè)定依據(jù)取決于所有實驗樣本中呼氣噪聲的平均能零積及最小的語音單詞能零積之間的一個常數(shù)。如圖2(b)所示，即為圖2(a)中所示的語音文件經(jīng)過雙門限能零積檢測算法得到的檢測結(jié)果。可以明顯看到，最前一段信號，即呼氣噪聲已經(jīng)被視為噪音濾除。[!--empirenews.page--]
1．2 隱馬爾可夫模型HMM
    隱馬爾可夫模型，即HMM是一種基于概率方法的模式匹配方法。它的應(yīng)用是20世紀80年代以來語音識別領(lǐng)域取得的重要成果。
    一個HMM模型可以表示為：

    式中：π為初始狀態(tài)概率分布，πi=P(q1=θi)，1≤i≤N，表示初始狀態(tài)處于θi的概率；A為狀態(tài)轉(zhuǎn)移概率矩陣，(aij)N×N，aij=P(qt+1 =θj|qt=θi)，1≤i，j≤N；B為觀察值概率矩陣，B={bj(ot)}，j=1，2，…，N，表示觀察值輸出概率分布，也就是觀察值ot處于狀態(tài)j的概率。
1．3 模型訓(xùn)練
    HMM有多種結(jié)構(gòu)類型，并且有不同的分類方法。根據(jù)狀態(tài)轉(zhuǎn)移矩陣(A參數(shù))和觀察值輸出矩陣(B參數(shù))的不同有不同類型的HMM。
    對于CHMM模型，當有多個觀察值序列時，其重估公式由參考文檔給出，此處不再贅述。
1．4 概率計算
    利用HMM的定義可以得出P(O|λ)的直接求取公式：

    式(2)計算量巨大，是不能接受的。Rabiner提出了前向后向算法，計算量大大減小。定義前向概率：

    式(2)表示的是初始前向概率，其中bi(o1)為觀察值序列處于t=1時刻在狀態(tài)i時的輸出概率，由于它服從連續(xù)高斯混合分布，故此值往往極小。根據(jù)大量實驗觀察，通常小于10-10，此值在定點DSP中已不能用Q格式表示。分析式(3)可以發(fā)現(xiàn)，隨著時間t的增加，還會有大量的小數(shù)之間的乘法加法運算，使得新的前向概率值at+1更小，逐漸趨向于0，定點DSP采用普通的Q格式進行計算時便會負溢出，即便不發(fā)生負溢出也會大大丟失精度。因此必須尋找一種解決方法，在不影響DSP實時性的前提下，既不發(fā)生負溢出，又能提高精度。

2 DSP實現(xiàn)語音識別
    孤立詞語音識別一般采用DTW動態(tài)時間規(guī)整算法。連續(xù)語音識別一般采用HMM模型或者HMM與人工神經(jīng)網(wǎng)絡(luò)ANN相結(jié)合。
    為了能實時控制機器人，首先需要考慮的是能夠?qū)崿F(xiàn)實時地語音識別。而考慮到CHMM的巨大計算量以及成本因素，采用了數(shù)據(jù)處理能力強大，成本相對較低的定點數(shù)字信號處理器，即定點DSP。本實驗采用的是TI公司多媒體芯片TMS320DM642。定點DSP要能準確、實時的實現(xiàn)語音識別，必須考慮2點問題：精度問題和實時性問題。
    精度問題的產(chǎn)生原因已經(jīng)由1．4節(jié)詳細闡述，這里不再贅述。因此必須找出一種可以提高精度，而又不會對實時性造成影響的解決方法。基于以上考慮，本文提出了一種動態(tài)指數(shù)定標方法。這種方法類似于科學(xué)計數(shù)法，用2個32 b單元，一個單元表示指數(shù)部分EXP，另一個單元表示小數(shù)部分Frac。首先將待計算的數(shù)據(jù)按照指數(shù)定標格式歸一化，再進行運算。這樣當數(shù)據(jù)進行運算時，仍然是定點進行，從而避開浮點算法，從而使精度可以達到要求。
    對于實時性問題，通常，語音的頻率范圍大約是300～3 400 Hz左右，因而本實驗采樣率取8 kHz，16 b量化?？紤]識別的實現(xiàn)，必須將語音進行分幀處理。研究表明，大約在10～30 ms內(nèi)，人的發(fā)音模型是相對穩(wěn)定的，所以本實驗中取32 ms為一幀，16 ms為幀移的時間間隔。
    解決實時性問題必須充分利用DSP芯片的片上資源。利用EDMA進行音頻數(shù)據(jù)的搬移，提高CPU利用率。采用PING—PONG緩沖區(qū)進行數(shù)據(jù)的緩存，以保證不丟失數(shù)據(jù)。CHMM訓(xùn)練的模板放于外部存儲器，由于外部存儲器較片內(nèi)存儲器的速度更慢，因此開啟CACHE。建立DSP／BIOS任務(wù)，充分利用BIOS進行任務(wù)之間的調(diào)度，實時處理新到的語音數(shù)據(jù)，檢測語音的起止點，當有語音數(shù)據(jù)時再進入下一任務(wù)進行特征提取及識別。將識別結(jié)果用揚聲器播放，并送入到機器人的控制模塊。
    實驗中，采用如圖3的程序架構(gòu)。

[!--empirenews.page--]

3 機器人控制
機器人由自然條件下的語句進行控制。這些語句描述了動作的方向，以及動作的幅度。為了簡單起見，讓機器人只執(zhí)行簡單命令。由手機進行遙控，DSP模塊識別出語音命令，送控制命令到ARM模塊，驅(qū)動左右機械輪執(zhí)行相應(yīng)動作。
3．1 硬件結(jié)構(gòu)
機器人的硬件結(jié)構(gòu)如圖4所示。

機器人主要有2大模塊，一個是基于DSP的語音識別模塊；另一個是基于ARM的控制模塊，其機械足為兩滑輪。由語音識別模塊識別語音，由控制模塊控制機器人動作。
3．2 語音控制
首先根據(jù)需要，設(shè)置了如下幾個簡單命令：前、后、左、右。機器人各狀態(tài)之間的轉(zhuǎn)移關(guān)系如圖5所示。其中，等待狀態(tài)為默認狀態(tài)，當每次執(zhí)行前后或左右轉(zhuǎn)命令后停止，即回到等待狀態(tài)，此時為靜止狀態(tài)。

    語音的訓(xùn)練模板庫由4個命令加10個阿拉伯數(shù)字共14個組成，如下所示。
    命令：“前”、“后”、“左”、“右”；
    數(shù)字：“0～9”。
    命令代表動作的方向，數(shù)字代表動作的幅度。當執(zhí)行前后命令時，數(shù)字的單位為dm，執(zhí)行左右轉(zhuǎn)彎命令時，數(shù)字的單位為角度單位的20°。每句命令句法為命令+數(shù)字。例如，語音“左2”表示的含義為向左轉(zhuǎn)彎40°，“前4”表示向前直行4 dm。
    機器人語音控制的關(guān)鍵在于語音識別的準確率。表1給出了5個男聲樣本的識別統(tǒng)計結(jié)果。

4 結(jié)語
工作中，成功地將CHMM模型應(yīng)用于定點DSP上，并實現(xiàn)了對機器人的語音控制。解決了CHMM模型巨大計算量及精度與實時性之間的矛盾。提出了一種新的端點檢測算法，對于對抗短時或較低能量的環(huán)境噪音具有明顯效果。同時需要指出的是，當語音識別指令增多時，則需要定義更多的句法，并且識別率也可能會相應(yīng)降低，計算量也會相應(yīng)變大。下一步研究工作應(yīng)更注重提高大詞匯量時的識別率及其魯棒性。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

與傳統(tǒng)的驅(qū)動方式相比，共陰恒流驅(qū)動在能效有哪些優(yōu)勢

LED驅(qū)動電源的輸入包括高壓工頻交流(即市電)、低壓直流、高壓直流、低壓高頻交流(如電子變壓器的輸出)等。

關(guān)鍵字：驅(qū)動電源

[電源]

工業(yè)電機驅(qū)動電源設(shè)計：反電動勢抑制與過流保護的集成方案

在工業(yè)自動化蓬勃發(fā)展的當下，工業(yè)電機作為核心動力設(shè)備，其驅(qū)動電源的性能直接關(guān)系到整個系統(tǒng)的穩(wěn)定性和可靠性。其中，反電動勢抑制與過流保護是驅(qū)動電源設(shè)計中至關(guān)重要的兩個環(huán)節(jié)，集成化方案的設(shè)計成為提升電機驅(qū)動性能的關(guān)鍵。

關(guān)鍵字：工業(yè)電機驅(qū)動電源

[電源]

如何解決 LED 驅(qū)動電源的易損壞問題

LED 驅(qū)動電源作為 LED 照明系統(tǒng)的 “心臟”，其穩(wěn)定性直接決定了整個照明設(shè)備的使用壽命。然而，在實際應(yīng)用中，LED 驅(qū)動電源易損壞的問題卻十分常見，不僅增加了維護成本，還影響了用戶體驗。要解決這一問題，需從設(shè)計、生...

關(guān)鍵字：驅(qū)動電源照明系統(tǒng) 散熱

[電力電工電路]

LED設(shè)計中LED驅(qū)動電源的公式

根據(jù)LED驅(qū)動電源的公式，電感內(nèi)電流波動大小和電感值成反比，輸出紋波和輸出電容值成反比。所以加大電感值和輸出電容值可以減小紋波。

關(guān)鍵字： LED 設(shè)計驅(qū)動電源

[汽車電子]

EV主驅(qū)IGBT隔離驅(qū)動電源方案選擇問題探討

電動汽車(EV)作為新能源汽車的重要代表，正逐漸成為全球汽車產(chǎn)業(yè)的重要發(fā)展方向。電動汽車的核心技術(shù)之一是電機驅(qū)動控制系統(tǒng)，而絕緣柵雙極型晶體管(IGBT)作為電機驅(qū)動系統(tǒng)中的關(guān)鍵元件，其性能直接影響到電動汽車的動力性能和...

關(guān)鍵字：電動汽車新能源驅(qū)動電源

[電源]

合理的驅(qū)動電源方案成為大功率區(qū)域照明的主流選擇

在現(xiàn)代城市建設(shè)中，街道及停車場照明作為基礎(chǔ)設(shè)施的重要組成部分，其質(zhì)量和效率直接關(guān)系到城市的公共安全、居民生活質(zhì)量和能源利用效率。隨著科技的進步，高亮度白光發(fā)光二極管(LED)因其獨特的優(yōu)勢逐漸取代傳統(tǒng)光源，成為大功率區(qū)域...

關(guān)鍵字：發(fā)光二極管驅(qū)動電源 LED

[消費電子]