www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當(dāng)前位置:首頁 > 智能硬件 > 智能硬件
[導(dǎo)讀]語音識別已成為人與機器通過自然語言交互重要方式之一,本文將從語音識別的原理以及語音識別算法的角度出發(fā)為大家介紹語音識別的方案及詳細設(shè)計過程。

語音識別已成為人與機器通過自然語言交互重要方式之一,本文將從語音識別的原理以及語音識別算法的角度出發(fā)為大家介紹語音識別的方案及詳細設(shè)計過程。

語言作為人類的一種基本交流方式,在數(shù)千年歷史中得到持續(xù)傳承。近年來,語音識別技術(shù)的不斷成熟,已廣泛應(yīng)用于我們的生活當(dāng)中。語音識別技術(shù)是如何讓機器“聽懂”人類語言?本文將為大家從語音前端處理、基于統(tǒng)計學(xué)語音識別和基于深度學(xué)習(xí)語音識別等方面闡述語音識別的原理。

隨著計算機技術(shù)的飛速發(fā)展,人們對機器的依賴已經(jīng)達到一個極高的程度。語音識別技術(shù)使得人與機器通過自然語言交互成為可能。最常見的情形是通過語音控制房間燈光、空調(diào)溫度和電視的相關(guān)操作等。并且,移動互聯(lián)網(wǎng)、智能家居、汽車、醫(yī)療和教育等領(lǐng)域的應(yīng)用帶動智能語音產(chǎn)業(yè)規(guī)模持續(xù)快速增長, 2018年全球智能語音市場規(guī)模將達到141.1億美元。

 

 

目前,在全球智能語音市場占比情況中,各巨頭市場占有率由大到小依次為:Nuance、谷歌、蘋果、微軟和科大訊飛等。

 

 

語音識別的本質(zhì)就是將語音序列轉(zhuǎn)換為文本序列,其常用的系統(tǒng)框架如下:

 

 

接下來對語音識別相關(guān)技術(shù)進行介紹,為了便于整體理解,首先,介紹語音前端信號處理的相關(guān)技術(shù),然后,解釋語音識別基本原理,并展開到聲學(xué)模型和語言模型的敘述,最后,展示我司當(dāng)前研發(fā)的離線語音識別demo。

1.前端信號處理

前端的信號處理是對原始語音信號進行的相關(guān)處理,使得處理后的信號更能代表語音的本質(zhì)特征,相關(guān)技術(shù)點如下表所述:

1)語音活動檢測

語音活動檢測(Voice Activity Detection, VAD)用于檢測出語音信號的起始位置,分離出語音段和非語音(靜音或噪聲)段。VAD算法大致分為三類:基于閾值的VAD、基于分類器的VAD和基于模型的VAD。

基于閾值的VAD是通過提取時域(短時能量、短時過零率等)或頻域(MFCC、譜熵等)特征,通過合理的設(shè)置門限,達到區(qū)分語音和非語音的目的。

基于分類的VAD是將語音活動檢測作為(語音和非語音)二分類,可以通過機器學(xué)習(xí)的方法訓(xùn)練分類器,達到語音活動檢測的目的。

基于模型的VAD是構(gòu)建一套完整的語音識別模型用于區(qū)分語音段和非語音段,考慮到實時性的要求,并未得到實際的應(yīng)用。

2)降噪

在生活環(huán)境中通常會存在例如空調(diào)、風(fēng)扇等各種噪聲,降噪算法目的在于降低環(huán)境中存在的噪聲,提高信噪比,進一步提升識別效果。

常用降噪算法包括自適應(yīng)LMS和維納濾波等。

3)回聲消除

回聲存在于雙工模式時,麥克風(fēng)收集到揚聲器的信號,比如在設(shè)備播放音樂時,需要用語音控制該設(shè)備的場景。

回聲消除通常使用自適應(yīng)濾波器實現(xiàn)的,即設(shè)計一個參數(shù)可調(diào)的濾波器,通過自適應(yīng)算法(LMS、NLMS等)調(diào)整濾波器參數(shù),模擬回聲產(chǎn)生的信道環(huán)境,進而估計回聲信號進行消除。

4)混響消除

語音信號在室內(nèi)經(jīng)過多次反射之后,被麥克風(fēng)采集,得到的混響信號容易產(chǎn)生掩蔽效應(yīng),會導(dǎo)致識別率急劇惡化,需要在前端處理。

混響消除方法主要包括:基于逆濾波方法、基于波束形成方法和基于深度學(xué)習(xí)方法等。

5)聲源定位

麥克風(fēng)陣列已經(jīng)廣泛應(yīng)用于語音識別領(lǐng)域,聲源定位是陣列信號處理的主要任務(wù)之一,使用麥克風(fēng)陣列確定說話人位置,為識別階段的波束形成處理做準(zhǔn)備。

聲源定位常用算法包括:基于高分辨率譜估計算法(如MUSIC算法),基于聲達時間差(TDOA)算法,基于波束形成的最小方差無失真響應(yīng)(MVDR)算法等。

6)波束形成

波束形成是指將一定幾何結(jié)構(gòu)排列的麥克風(fēng)陣列的各個麥克風(fēng)輸出信號,經(jīng)過處理(如加權(quán)、時延、求和等)形成空間指向性的方法,可用于聲源定位和混響消除等。

波束形成主要分為:固定波束形成、自適應(yīng)波束形成和后置濾波波束形成等。

2.語音識別的基本原理

 

 

3.聲學(xué)模型

 

 

傳統(tǒng)的語音識別系統(tǒng)普遍采用基于GMM-HMM的聲學(xué)模型,示意圖如下:

 

 

 

 

基于GMM-HMM的語音識別只能學(xué)習(xí)到語音的淺層特征,不能獲取到數(shù)據(jù)特征間的高階相關(guān)性,DNN-HMM利用DNN較強的學(xué)習(xí)能力,能夠提升識別性能,其聲學(xué)模型示意圖如下:

 

 

GMM-HMM和DNN-HMM的區(qū)別在于用DNN替換GMM來求解發(fā)射概率,GMM- HMM模型優(yōu)勢在于計算量較小且效果不俗。DNN-HMM模型提升了識別率,但對于硬件的計算能力要求較高。因此,模型的選擇可以結(jié)合實際的應(yīng)用調(diào)整。

 

 

5.語音識別效果展示

基于PC的語音識別展示demo如下視頻所示:

此處插入視頻zal_asr_demo_video.mp4

視頻包括使用“小致同學(xué)”喚醒設(shè)備,設(shè)備喚醒之后有12秒時間進行語音識別控制,空閑時間超過了12秒將再次休眠。

我們的語音識別算法已經(jīng)部分移植到了基于AWorks的cortex-m7系列M1052-M16F12 8AWI -T平臺。語音識別的聲學(xué)模型和語言模型是我司訓(xùn)練的用于測試智能家居控制的相關(guān)模型demo,在支持65個常用命令詞的離線識別測試中(數(shù)量越大識別所需時間越長),使用讀取本地音頻文件的方式進行語音識別“打開空調(diào)”所需時間0.46s左右。下面是在M1052-M16F128AWI- T的實測效果:

 

 

最后附上M1052-M16F128AWI-T產(chǎn)品圖片:

 

 

6.關(guān)于算法庫獲取

目前語音識別系統(tǒng)處于研發(fā)階段,廣大客戶可將自身需求反饋給廣州立功科技股份有限公司與立功科技·致遠電子相關(guān)市場人員,我們會以最快速度研發(fā)客戶需要的產(chǎn)品。

本站聲明: 本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

立體深度估計在機器人技術(shù)、AR/VR和工業(yè)檢測中至關(guān)重要,它為諸如箱體拾取、自動導(dǎo)航和質(zhì)量控制等任務(wù)提供了精確的3D感知。Teledyne IIS的Bumblebee X立體相機既具備高精度,又能夠提供實時性能,能夠在1...

關(guān)鍵字: 深度學(xué)習(xí) AR 機器人

在工業(yè)廢氣排放監(jiān)測與污染控制,多光譜氣體傳感器憑借其非接觸、多組分同步檢測的優(yōu)勢,已成為實時感知氣體成分的核心設(shè)備。然而,工業(yè)廢氣中存在的復(fù)雜氣體混合物(如SO?與NO?的吸收光譜重疊、VOCs(揮發(fā)性有機物)與水蒸氣的...

關(guān)鍵字: 多光譜氣體傳感器 深度學(xué)習(xí)

在醫(yī)學(xué)影像技術(shù)飛速發(fā)展的當(dāng)下,低劑量CT(LDCT)因其能有效降低患者輻射暴露風(fēng)險,成為臨床診斷中備受關(guān)注的成像方式。然而,降低輻射劑量不可避免地會引入噪聲和偽影,影響圖像質(zhì)量,進而對微小結(jié)節(jié)(尤其是3mm及以下)的檢測...

關(guān)鍵字: 低劑量CT 深度學(xué)習(xí)

一、引言 紅外熱像儀憑借其能非接觸式測量物體表面溫度分布的優(yōu)勢,在工業(yè)檢測、安防監(jiān)控、醫(yī)療診斷等領(lǐng)域得到廣泛應(yīng)用。然而,由于制造工藝、環(huán)境因素等影響,紅外探測器各像素單元的響應(yīng)特性存在差異,導(dǎo)致成像結(jié)果出現(xiàn)非均勻性...

關(guān)鍵字: 紅外熱像儀 NUC 深度學(xué)習(xí)

隨著數(shù)字集成電路(IC)設(shè)計復(fù)雜度的指數(shù)級增長,傳統(tǒng)布局工具在處理超大規(guī)模設(shè)計時面臨計算效率瓶頸。DREAMPlace作為基于深度學(xué)習(xí)的VLSI布局開源項目,通過引入GPU加速技術(shù),實現(xiàn)了全局布局與詳細布局階段超過30倍...

關(guān)鍵字: 深度學(xué)習(xí) IC布局

英國倫敦時間4月9日,全球頂級學(xué)術(shù)期刊《自然》(Nature)刊載了曦智科技的光電混合計算成果:《超低延遲大規(guī)模集成光子加速器》(An integrated large-scale photonic accelerato...

關(guān)鍵字: 光電混合計算 光子加速器 深度學(xué)習(xí)

鑒于過去幾十年技術(shù)變革的速度,預(yù)測趨勢似乎是一項吃力不討好的任務(wù)。但我們認(rèn)為擁有前瞻性的視角很重要,以下是我們對未來幾年可能持續(xù)塑造和重塑行業(yè)的因素的預(yù)測。

關(guān)鍵字: 半導(dǎo)體 機器學(xué)習(xí) 深度學(xué)習(xí) 人工智能

隨著人工智能技術(shù)的飛速發(fā)展,智能攝像頭行為識別系統(tǒng)逐漸成為公共安全、商業(yè)運營和智能家居等領(lǐng)域的重要工具。該系統(tǒng)通過深度學(xué)習(xí)算法,對攝像頭捕捉的視頻圖像進行實時分析,能夠自動識別并分析人類的各種行為,如打斗、跌倒、抽煙等,...

關(guān)鍵字: 深度學(xué)習(xí) 智能攝像頭 行為識別

飛行目標(biāo)往往呈現(xiàn)為十幾個像素點的小目標(biāo) ,對其準(zhǔn)確檢測是黑飛反制、管控等應(yīng)用中首要解決的問題 。鑒于此 ,提出一種基于改進YOLO v3的方法提高飛行目標(biāo)的檢測能力。首先為避免梯度消失 ,增強特征的復(fù)用 ,在特征檢測層...

關(guān)鍵字: 飛行目標(biāo)檢測 YOLO v3 深度學(xué)習(xí)

隨著人工智能技術(shù)的飛速發(fā)展,人體動作識別技術(shù)作為計算機視覺領(lǐng)域的重要分支,正逐漸展現(xiàn)出其在人機交互、智能監(jiān)控、虛擬現(xiàn)實、健身娛樂等領(lǐng)域的巨大潛力?;谏疃葘W(xué)習(xí)的人體動作識別系統(tǒng),通過利用深度學(xué)習(xí)技術(shù)和計算機視覺方法,實現(xiàn)...

關(guān)鍵字: 深度學(xué)習(xí) 動作識別 人工智能
關(guān)閉