語(yǔ)音識(shí)別
掃描二維碼
隨時(shí)隨地手機(jī)看文章
語(yǔ)音識(shí)別是一門交叉學(xué)科。近二十年來(lái),語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來(lái)10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。 語(yǔ)音識(shí)別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。 語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。
與機(jī)器進(jìn)行語(yǔ)音交流,讓機(jī)器明白你說(shuō)什么,這是人們長(zhǎng)期以來(lái)夢(mèng)寐以求的事情。中國(guó)物聯(lián)網(wǎng)校企聯(lián)盟形象得把語(yǔ)音識(shí)別比做為“機(jī)器的聽覺系統(tǒng)”。語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)?!≌Z(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。語(yǔ)音識(shí)別技術(shù)車聯(lián)網(wǎng)也得到了充分的引用,例如在翼卡車聯(lián)網(wǎng)中,只需按一鍵通客服人員口述即可設(shè)置目的地直接導(dǎo)航,安全、便捷。
根據(jù)識(shí)別的對(duì)象不同,語(yǔ)音識(shí)別任務(wù)大體可分為3類,即孤立詞識(shí)別(isolated word recognition),關(guān)鍵詞識(shí)別(或稱關(guān)鍵詞檢出,keyword spotting)和連續(xù)語(yǔ)音識(shí)別。其中,孤立詞識(shí)別 的任務(wù)是識(shí)別事先已知的孤立的詞,如“開機(jī)”、“關(guān)機(jī)”等;連續(xù)語(yǔ)音識(shí)別的任務(wù)則是識(shí)別任意的連續(xù)語(yǔ)音,如一個(gè)句子或一段話;連續(xù)語(yǔ)音流中的關(guān)鍵詞檢測(cè)針對(duì)的是連續(xù)語(yǔ)音,但它并不識(shí)別全部文字,而只是檢測(cè)已知的若干關(guān)鍵詞在何處出現(xiàn),如在一段話中檢測(cè)“計(jì)算機(jī)”、“世界”這兩個(gè)詞。根據(jù)針對(duì)的發(fā)音人,可以把語(yǔ)音識(shí)別技術(shù)分為特定人語(yǔ)音識(shí)別和非特定人語(yǔ)音識(shí)別,前者只能識(shí)別一個(gè)或幾個(gè)人的語(yǔ)音,而后者則可以被任何人使用。顯然,非特定人語(yǔ)音識(shí)別系統(tǒng)更符合實(shí)際需要,但它要比針對(duì)特定人的識(shí)別困難得多。另外,根據(jù)語(yǔ)音設(shè)備和通道,可以分為桌面(PC)語(yǔ)音識(shí)別、電話語(yǔ)音識(shí)別和嵌入式設(shè)備(手機(jī)、PDA等)語(yǔ)音識(shí)別。不同的采集通道會(huì)使人的發(fā)音的聲學(xué)特性發(fā)生變形,因此需要構(gòu)造各自的識(shí)別系統(tǒng)。語(yǔ)音識(shí)別的應(yīng)用領(lǐng)域非常廣泛,常見的應(yīng)用系統(tǒng)有:語(yǔ)音輸入系統(tǒng),相對(duì)于鍵盤輸入方法,它更符合人的日常習(xí)慣,也更自然、更高效;語(yǔ)音控制系統(tǒng),即用語(yǔ)音來(lái)控制設(shè)備的運(yùn)行,相對(duì)于手動(dòng)控制來(lái)說(shuō)更加快捷、方便,可以用在諸如工業(yè)控制、語(yǔ)音撥號(hào)系統(tǒng)、智能家電、聲控智能玩具等許多領(lǐng)域;智能對(duì)話查詢系統(tǒng),根據(jù)客戶的語(yǔ)音進(jìn)行操作,為用戶提供自然、友好的數(shù)據(jù)庫(kù)檢索服務(wù),例如家庭服務(wù)、賓館服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)等等。