語音識別發(fā)展?jié)u趨成熟,未來或成生物識別主流方式
(文章來源:最極客)
? ? ?? 語音識別技術(shù),也被稱為自動語音識別(ASR)。其目標(biāo)是將人類語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機(jī)可讀的數(shù)據(jù),如字符序列或二進(jìn)制編碼等。不過,早在計算機(jī)發(fā)明之前,人類就已經(jīng)開始了對語音識別技術(shù)的研究,早期的聲碼器即可看作是語音識別及合成的雛形。1920年代生產(chǎn)的“Radio Rex”玩具狗可能是最早的語音識別器。只要呼喚這只狗的名字,他就會從底座上彈出來。
1952年,貝爾研究所的Davis等人開發(fā)了Audrey語音識別系統(tǒng),成為世界上首個能夠識別10個英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng)。其識別方法主要是追蹤語音中的共振峰,該系統(tǒng)的準(zhǔn)確率為98%。到1950年代末,College of London(倫敦學(xué)院)將語法概率加入語音識別中。
1960年,英國的Denes等人研究成功了第一個計算機(jī)語音識別系統(tǒng),同時人工神經(jīng)網(wǎng)絡(luò)被引入語音識別。70年代后,語音識別在孤立詞及小詞匯量的識別方面取得了實(shí)質(zhì)性進(jìn)展。到了80年代,研究重點(diǎn)轉(zhuǎn)向大詞匯量、非特定人連續(xù)語音識別。與此同時,語音識別的研究思路由傳統(tǒng)的基于標(biāo)準(zhǔn)模板匹配的技術(shù)轉(zhuǎn)為基于HMM(統(tǒng)計模型)的技術(shù),并再次提出將神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識別領(lǐng)域的技術(shù)思路。
1981年,日本在第五代計算機(jī)計劃中提出了關(guān)于語音識別輸入-輸出自然語言的目標(biāo)。盡管沒有按照預(yù)期實(shí)現(xiàn),但關(guān)于語音識別技術(shù)的研究有了大幅度的提升和進(jìn)展。1987年開始,日本又出臺了高級人機(jī)口語接口和自動電話翻譯系統(tǒng)的項(xiàng)目。進(jìn)入90年代以后,在語音識別的系統(tǒng)框架方面并沒有什么重大突破。但是,在語音識別技術(shù)的應(yīng)用及產(chǎn)品化方面出現(xiàn)了很大的進(jìn)展。
中國的語音識別發(fā)展研究起始于1958年,由中國科學(xué)院聲學(xué)所利用電子管電路識別10個元音。1973年,中國科學(xué)院聲學(xué)所開始了對計算機(jī)語音識別的研究。由于當(dāng)時被條件所限,中國語音識別研究工作一直處于緩慢發(fā)展的狀態(tài)。
1986年3月,中國高科技發(fā)展計劃(863計劃)啟動,因?yàn)檎Z音識別是智能計算機(jī)系統(tǒng)研究的一個重要組成部分,故而被專門列為研究課題。在863計劃的支撐下,中國開始了有組織的語音識別技術(shù)的研究。由此,中國語音識別技術(shù)進(jìn)入了一個前所未有的發(fā)展階段。
2006年深度學(xué)習(xí)興起,2009年深度學(xué)習(xí)首次在語音識別任務(wù)中取得成功,基于深度學(xué)習(xí)的語音識別取得了很大的突破。在技術(shù)方面,語音識別從最初的前饋全連接神經(jīng)網(wǎng)絡(luò),到之后的遞歸神經(jīng)網(wǎng)絡(luò),到長短時記憶模型,再到當(dāng)前包含數(shù)十層結(jié)構(gòu)的深層全卷積神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)愈加復(fù)雜,但也越來越能夠契合語音的特性從而實(shí)現(xiàn)建模,相應(yīng)的效果也愈發(fā)顯著。
當(dāng)下,基于深度學(xué)習(xí)的語音識別系統(tǒng)已經(jīng)通過海量的用戶大數(shù)據(jù)訓(xùn)練得到了一個通用的識別系統(tǒng),在日常場合已經(jīng)能夠?qū)崿F(xiàn)應(yīng)用。技術(shù)的成熟以及廣闊的前景使得許多互聯(lián)網(wǎng)公司也紛紛入局語音識別領(lǐng)域。
去年12月,阿里巴巴宣布為上海全部地鐵站的售票機(jī)安裝語音識別技術(shù),用以驗(yàn)證上班族的身份??拼笥嶏w也在安徽為醫(yī)療信息提供語音簽名服務(wù),同時為警方提供語音識別服務(wù)。此外,百度、騰訊也分別在語音識別領(lǐng)域有所動作。由此可見,語音識別技術(shù)很可能成為繼人臉識別技術(shù)后的下一個生物識別的主流方式,并逐漸受到廣泛的關(guān)注和消費(fèi)級的應(yīng)用。但在發(fā)展過程中,仍然不可避免地會遭遇一些瓶頸。