www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 消費電子 > 音頻技術
[導讀] 語音識別技術的發(fā)展 與機器進行語音交流,讓它聽明白你在說什么。語音識別技術將人類這一曾經(jīng)的夢想變成了現(xiàn)實。語音識別就好比“機器的聽覺系統(tǒng)”,該技術讓機器通過識別和

語音識別技術的發(fā)展

與機器進行語音交流,讓它聽明白你在說什么。語音識別技術將人類這一曾經(jīng)的夢想變成了現(xiàn)實。語音識別就好比“機器的聽覺系統(tǒng)”,該技術讓機器通過識別和理解,把語音信號轉變?yōu)橄鄳奈谋净蛎睢?/p>

在1952年的貝爾研究所,Davis等人研制了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)。1960年英國的Denes等人研制了第一個計算機語音識別系統(tǒng)。

大規(guī)模的語音識別研究始于上世紀70年代以后,并在小詞匯量、孤立詞的識別方面取得了實質性的進展。上世紀80年代以后,語音識別研究的重點逐漸轉向大詞匯量、非特定人連續(xù)語音識別。

同時,語音識別在研究思路上也發(fā)生了重大變化,由傳統(tǒng)的基于標準模板匹配的技術思路開始轉向基于統(tǒng)計模型的技術思路。此外,業(yè)內(nèi)有專家再次提出了將神經(jīng)網(wǎng)絡技術引入語音識別問題的技術思路。

上世紀90年代以后,在語音識別的系統(tǒng)框架方面并沒有什么重大突破。但是,在語音識別技術的應用及產(chǎn)品化方面出現(xiàn)了很大的進展。比如,DARPA是在上世界70年代由美國國防部遠景研究計劃局資助的一項計劃,旨在支持語言理解系統(tǒng)的研究開發(fā)工作。進入上世紀90年代,DARPA計劃仍在持續(xù)進行中,其研究重點已轉向識別裝置中的自然語言處理部分,識別任務設定為“航空旅行信息檢索”。

我國的語音識別研究起始于1958年,由中國科學院聲學所利用電子管電路識別10個元音。由于當時條件的限制,中國的語音識別研究工作一直處于緩慢發(fā)展的階段。直至1973年,中國科學院聲學所開始了計算機語音識別。

進入上世紀80年代以來,隨著計算機應用技術在我國逐漸普及和應用以及數(shù)字信號技術的進一步發(fā)展,國內(nèi)許多單位具備了研究語音技術的基本條件。與此同時,國際上語音識別技術在經(jīng)過了多年的沉寂之后重又成為研究的熱點。在這種形式下,國內(nèi)許多單位紛紛投入到這項研究工作中去。

1986年,語音識別作為智能計算機系統(tǒng)研究的一個重要組成部分而被專門列為研究課題。在“863”計劃的支持下,中國開始組織語音識別技術的研究,并決定了每隔兩年召開一次語音識別的專題會議。自此,我國語音識別技術進入了一個新的發(fā)展階段。

自2009年以來,借助機器學習領域深度學習研究的發(fā)展以及大數(shù)據(jù)語料的積累,語音識別技術得到突飛猛進的發(fā)展。

將機器學習領域深度學習研究引入到語音識別聲學模型訓練,使用帶RBM預訓練的多層神經(jīng)網(wǎng)絡,提高了聲學模型的準確率。在此方面,微軟公司的研究人員率先取得了突破性進展,他們使用深層神經(jīng)網(wǎng)絡模型(DNN)后,語音識別錯誤率降低了30%,是近20年來語音識別技術方面最快的進步。

2009年前后,大多主流的語音識別解碼器已經(jīng)采用基于有限狀態(tài)機(WFST)的解碼網(wǎng)絡,該解碼網(wǎng)絡可以把語言模型、詞典和聲學共享音字集統(tǒng)一集成為一個大的解碼網(wǎng)絡,提高了解碼的速度,為語音識別的實時應用提供了基礎。

隨著互聯(lián)網(wǎng)的快速發(fā)展,以及手機等移動終端的普及應用,可以從多個渠道獲取大量文本或語音方面的語料,這為語音識別中的語言模型和聲學模型的訓練提供了豐富的資源,使得構建通用大規(guī)模語言模型和聲學模型成為可能。

在語音識別中,訓練數(shù)據(jù)的匹配和豐富性是推動系統(tǒng)性能提升的最重要因素之一,但是語料的標注和分析需要長期的積累和沉淀,隨著大數(shù)據(jù)時代的來臨,大規(guī)模語料資源的積累將提到戰(zhàn)略高度。

現(xiàn)如今,語音識別在移動終端上的應用最為火熱,語音對話機器人、語音助手、互動工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財力展開此方面的研究和應用,目的是通過語音交互的新穎和便利模式迅速占領客戶群。(雨田整理) 相關產(chǎn)品 siri

Siri技術來源于美國國防部高級研究規(guī)劃局所公布的CALO計劃:一個讓軍方簡化處理一些繁復庶務,并具學習、組織以及認知能力的數(shù)字助理,其所衍生出來的民用版軟件Siri虛擬個人助理。

Siri成立于2007年,最初是以文字聊天服務為主,隨后通過與語音識別廠商Nuance合作,Siri實現(xiàn)了語音識別功能。2010年,Siri被蘋果以2億美金收購。

Siri成為蘋果公司在其產(chǎn)品iPhone和iPad Air上應用的一項語音控制功能。Siri可以令iPhone和iPad Air變身為一臺智能化機器人。Siri支持自然語言輸入,并且可以調用系統(tǒng)自帶的天氣預報、日程安排、搜索資料等應用,還能夠不斷學習新的聲音和語調,提供對話式的應答。

Google Now

Google Now是谷歌隨安卓4.1系統(tǒng)同時推出的一款應用,它可以了解用戶的各種習慣和正在進行的動作,并利用所了解的資料來為用戶提供相關信息。

今年3月24日,谷歌宣布Google Now語音服務正式登陸Windows和Mac桌面版Chrome瀏覽器。

Google Now的應用會更加方便用戶收取電子郵件,當你接收到新郵件時,它就會自動彈出以便你查看。Google Now還推出了步行和行車里程記錄功能,這個計步器功能可通過Android設備的傳感器來統(tǒng)計用戶每月行駛的里程,包括步行和騎自行車的路程。

此外,Google Now增加了一些旅游和娛樂特色功能,包括:汽車租賃、演唱會門票和通勤共享方面的卡片;公共交通和電視節(jié)目的卡片進行改善,這些卡片現(xiàn)在可以聽音識別音樂和節(jié)目信息;用戶可以為新媒體節(jié)目的開播設定搜索提醒,同時還可以接收實時NCAA(美國大學體育協(xié)會)橄欖球比分。

百度語音

百度語音一般指百度語音搜索,是百度公司為廣大互聯(lián)網(wǎng)用戶提供的一種基于語音的搜索服務,用戶可以使用多種客戶端發(fā)起語音搜索,服務器端根據(jù)用戶的發(fā)出的語音請求,進行語音識別然后將檢索結果反饋給用戶。

百度語音搜索不僅提供一般的通用語音搜索服務,還有針對地圖用戶制定的特色搜索服務,后續(xù)還會有更多的個性化搜索和識別服務出現(xiàn)。

目前百度語音搜索以移動客戶端為主要平臺,內(nèi)嵌于百度的其他產(chǎn)品中,比如掌上百度,百度手機地圖等,用戶可以在使用這些客戶端產(chǎn)品的同時體驗語音搜索,支持全部主流的手機操作系統(tǒng)。

微軟Cortana

Cortana是Windows Phone平臺下的虛擬語音助手,由游戲《光暈》中Cortana的聲優(yōu)Jen Taylor配音,Cortana中文版又名“微軟小娜”。

微軟對Cortana的描述為“你手機上的私人助手,為你提供設置日歷項、建議、進程等更多幫助”,它能夠和你之間進行交互,并且盡可能的模擬人的說話語氣和思考方式跟你進行交流。此外圓形的圖標按鈕會隨著你手機的主題進行調整,如果說你設置了綠色的主題,那么Cortana就是綠色的圖標。

此外,你能夠通過開始屏幕或者設備上的搜索按鈕來呼出Cortana,Cortana采用一問一答的方式,它只有在你咨詢它的時候才會顯示足夠多的信息。

語音識別技術難點

語音識別成為爭奪焦點

據(jù)悉,全球范圍人工智能公司多專攻深度學習方向,而我國人工智能方向的200家左右的創(chuàng)業(yè)公司有超過70%的公司主攻圖像或語音識別這兩個分類。全球都有哪些公司在布局語音識別?他們的發(fā)展情況又如何?

其實,早在計算機發(fā)明之前,自動語音識別的設想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語音識別及合成的雛形。最早的基于電子計算機的語音識別系統(tǒng)是由AT&T貝爾實驗室開發(fā)的Audrey語音識別系統(tǒng),它能夠識別10個英文數(shù)字。到1950年代末,倫敦學院(Colledge of London)的Denes已經(jīng)將語法概率加入語音識別中。

1960年代,人工神經(jīng)網(wǎng)絡被引入了語音識別。這一時代的兩大突破是線性預測編碼Linear PredicTIve Coding(LPC),及動態(tài)時間規(guī)整Dynamic TIme Warp技術。語音識別技術最重大的突破是隱含馬爾科夫模型Hidden Markov Model的應用。從Baum提出相關數(shù)學推理,經(jīng)過Rabiner等人的研究,卡內(nèi)基梅隆大學的李開復最終實現(xiàn)了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)Sphinx。

蘋果Siri

許多人認識語音識別可能還得歸功于蘋果鼎鼎大名的語音助手Siri。2011年蘋果將語音識別技術融入到iPhone 4S中并發(fā)布了Siri語音助理,不過Siri并不是蘋果研發(fā)的技術,而是收購成立于2007年的Siri Inc.這家公司獲得的技術。在iPhone4s發(fā)布以后,Siri的體驗并不理想,遭到了吐槽。因此,2013年蘋果又收購了Novauris Technologies。Novauris是一種可識別整個短語的語音識別技術,這種技術并非簡單識別單個詞句,而是試圖利用超過2.45億個短語的識別輔助理解上下文,這讓Siri的功能進一步完善。

不過Siri并沒有因為收購Novauris變得完美,2016年蘋果又收購了開發(fā)的人工智能軟件,能夠幫助計算機與用戶進行更為自然的對話英國語音技術初創(chuàng)公司VocalIQ。隨后,蘋果還收購了美國圣地牙哥AI技術公司EmoTIent,接收其臉部表情分析與情緒辨別技術。據(jù)悉,EmoTIent開發(fā)的情緒引擎可讀取人們的面部表情并且預測其情緒狀態(tài)。

谷歌Google Now

與蘋果Siri類似,谷歌的Google Now知名度也比較高。不過相比蘋果谷歌在語音識別領域的動作稍顯遲緩。2011年谷歌才出手收購語音通信公司SayNow和語音合成公司Phonetic Arts。SayNow可以把語音通信、點對點對話、以及群組通話和Facebook、Twitter、MySpace、Android和iPhone等等應用等整合在一起,而Phonetic Arts可以把錄制的語音對話轉化成語音庫,然后把這些聲音結合到一起,從而生成聽上去非常逼真的人聲對話。

2012年的Google I/O開發(fā)者大會上,Google Now第一次亮相。

2013年谷歌又以超過3000萬美元收購了新聞閱讀應用開發(fā)商Wavii。Wavii擅長“自然語言處理”技術,可以通過掃描互聯(lián)網(wǎng)發(fā)現(xiàn)新聞,并直接給出一句話摘要及鏈接。之后,谷歌又收購了SR Tech Group的多項語音識別相關的專利,這些技術和專利谷歌也很快應用到市場,比如YouTube已提供標題自動語音轉錄支持,Google Glass使用了語音控制技術,Android也整合了語音識別技術等等,Google Now更是擁有了完整的語音識別引擎。

谷歌可能出于戰(zhàn)略布局方面的考慮,2015年入資了中國的出門問問,這是一款以語音導航為主的公司,最近也發(fā)布了智能手表,出門問問也有國內(nèi)著名聲學器件廠商歌爾聲學的背景。

微軟Cortana小冰

微軟語音識別最吸引眼球的就是Cortana和小冰。Cortana是微軟在機器學習和人工智能領域方面的嘗試,Cortana可以記錄用戶的行為和使用習慣,利用云計算、搜索引擎和“非結構化數(shù)據(jù)”分析,讀取和學習包括手機中的圖片、視頻、電子郵件等數(shù)據(jù)理解用戶的語義和語境,從而實現(xiàn)人機交互。

微軟小冰是微軟亞洲研究院2014年發(fā)布的人工智能機器人,微軟小冰除了智能對話之外,還兼具群提醒、百科、天氣、星座、笑話、交通指南、餐飲點評等實用技能。

除了Cortana和微軟小冰,Skype Translator,可以為英語、西班牙語、漢語、意大利語用戶提供實時翻譯服務。

亞馬遜

Amazon的語音技術起步于2011年收購語音識別公司Yap,Yap成立于2006年,主要提供語音轉換文本的服務。2012年Amazon又收購了語音技術公司Evi,繼續(xù)加強語音識別在商品搜索方面的應用,Evi也曾經(jīng)應用過Nuance的語音識別技術。2013年,Amazon繼續(xù)收購Ivona Software,Ivona是一家波蘭公司,主要做文本語音轉換,其技術已被應用在Kindle Fire的文本至語音轉換功能、語音命令和Explore by Touch應用之中,Amazon智能音箱Echo也是利用了這項技術。

Facebook

Facebook在2013年收購了創(chuàng)業(yè)型語音識別公司Mobile Technologies,其產(chǎn)品Jibbigo允許用戶在25種語言中進行選擇,使用其中一種語言進行語音片段錄制或文本輸入,然后將翻譯顯示在屏幕上,同時根據(jù)選擇的語言大聲朗讀出來。這一技術使得Jibbigo成為出國旅游的常用工具,很好地代替了常用語手冊。

之后,F(xiàn)acebook繼續(xù)收購了語音交互解決方案服務商Wit.ai。Wit.ai的解決方案允許用戶直接通過語音來控制移動應用程序、穿戴設備和機器人,以及幾乎任何智能設備。Facebook的希望將這種技術應用到定向廣告之中,將技術和自己的商業(yè)模式緊密結合在一起。

傳統(tǒng)語音識別行業(yè)貴族Nuance

除了以上介紹的大家熟知的科技巨頭的語音識別發(fā)展情況,傳統(tǒng)語音識別行業(yè)貴族Nuance也值得了解。Nuance曾經(jīng)在語音領域一統(tǒng)江湖,世界上有超過80%的語音識別都用過Nuance識別引擎技術,其語音產(chǎn)品可以支持超過50種語言,在全球擁有超過20億用戶,幾乎壟斷了金融和電信行業(yè)?,F(xiàn)在,Nuance依舊是全球最大的語音技術公司,掌握著全球最多的語音技術專利。蘋果語音助手Siri、三星語音助手S-Voice、各大航空公司和頂級銀行的自動呼叫中心,剛開始都是采用他們的語音識別引擎技術。

不過由于Nuance有點過于自大,現(xiàn)在的Nuance已經(jīng)不如當年了。

國外其他語音識別公司

2013年英特爾收購了西班牙的語音識別技術公司Indisys,同年雅虎收購了自然語言處理技術初創(chuàng)公司SkyPhrase。而美國最大的有線電視公司Comcast也開始推出自己的語音識別交互系統(tǒng)。Comcast希望利用語音識別技術讓用戶通過語音就可以更自由控制電視,并完成一些遙控器無法完成的事情。

國內(nèi)語音識別廠商

科大訊飛

科大訊飛成立于1999年底,依靠中科大的語音處理技術以及國家的大力扶持,很快就走上了正軌??拼笥嶏w2008年掛牌上市,目前市值接近500億,根據(jù)2014年語音產(chǎn)業(yè)聯(lián)盟的數(shù)據(jù)調查顯示,科大訊飛占據(jù)了超過60%的市場份額,絕對是語音技術的國內(nèi)龍頭企業(yè)。

提到科大訊飛,大家可能想到的都是語音識別,但其實它最大的收益來源是教育,特別是在2013年左右,收購了很多家語音評測公司,包括啟明科技等,對教育市場形成了壟斷,經(jīng)過一系列的收購后,目前所有省份的口語評測用的都是科大訊飛的引擎,由于其占據(jù)了考試的制高點,所有的學校及家長都愿意為其買單。

百度語音

百度語音很早就被確立為戰(zhàn)略方向,2010年與中科院聲學所合作研發(fā)語音識別技術,但是市場發(fā)展相對緩慢。直到2014年,百度重新梳理了戰(zhàn)略,請來了人工智能領域的泰斗級大師吳恩達,正式組建了語音團隊,專門研究語音相關技術,由于有百度強大的資金支持,到目前為止收獲頗豐,斬獲了近13%的市場份額,其技術實力已經(jīng)可以和擁有十多年技術與經(jīng)驗積累的科大訊飛相提并論。

捷通和信利

捷通華聲憑借的是清華技術,成立初期力邀中科院聲學所的呂士楠老先生加入,奠定了語音合成的基礎。中科信利則完全依托于中科院聲學所,其成立初期技術實力極為雄厚,不僅為國內(nèi)語音識別行業(yè)培養(yǎng)了大量人才,而且也在行業(yè)領域,特別是軍工領域發(fā)揮著至關重要的作用。

中科院聲學所培養(yǎng)的這些人才,對于國內(nèi)語音識別行業(yè)的發(fā)展極為重要,姑且稱之為聲學系,但是相對于市場來說,這兩家公司已經(jīng)落后了科大訊飛一大段距離。中科信利由于還有行業(yè)市場背景,目前基本上不再參與市場運作,而捷通華聲最近也因為南大電子“嬌嬌”機器人的造假事件被推上了風口浪尖,著實是一個非常負面的影響。

思必馳

2009年前后,DNN被用于語音識別領域,語音識別率得到大幅提升,識別率突破90%,達到商用標準,這極大的推動了語音識別領域的發(fā)展,這幾年內(nèi)又先后成立許多語音識別相關的創(chuàng)業(yè)公司。

思必馳2007年成立,創(chuàng)始人大部分來源于劍橋團隊,其技術有一定的國外基礎,當時公司主要側重于語音評測,也就是教育,但經(jīng)過多年的發(fā)展,雖然占有了一些市場,但在科大訊飛把持著考試制高點的情況下,也很難得到突破。

于是在2014年的時候,思必馳痛下決心將負責教育行業(yè)的部門剝離,以9000萬賣給了網(wǎng)龍,自己則把精力收縮專注智能硬件和移動互聯(lián)網(wǎng),最近更是集中精力聚焦車載語音助手,推出了“蘿卜”,可市場反響非常一般。

云知聲

借著2011年蘋果Siri的宣傳勢頭,2012年云知聲成立。云知聲團隊主要來源于盛大研究院,湊巧的是CEO和CTO也是中科大畢業(yè),與科大訊飛可以說是師兄弟。但語音識別技術則更多的源于中科院自動化所,其語音識別技術有一定的獨到之處,有一小段時期內(nèi)語音識別率甚至超越科大訊飛。因此也受到了資本的熱捧,B輪融資達到3億,主要瞄準智能家居市場。但至今已經(jīng)成立了3年多,聽到的更多是宣傳,市場發(fā)展較為緩慢,B2B市場始終不見起色,B2C市場也很少聽到實際應用,估計目前還處在燒錢階段。

出門問問

出門問問成立于2012年,其CEO曾經(jīng)在谷歌工作,在拿到紅杉資本和真格基金的天使投資之后,從谷歌辭職創(chuàng)辦了上海羽扇智信息科技有限公司,并立志打造下一代移動語音搜索產(chǎn)品————“出門問問”。

出門問問的成功之處便是蘋果APP的榜單排名,但是筆者不知道有那么多內(nèi)置地圖的情況下,為啥還要下載這個軟件,顯然有時候比直接查找地圖還要麻煩。出門問問同樣也具有較強的融資能力,2015年拿到了Google的C輪融資,融資額累計已經(jīng)7500萬美元。出門問問主要瞄準可穿戴市場,最近自己也推出了智能手表等產(chǎn)品,但也是雷聲大,雨點小,沒見得其智能手表的銷量如何。

國內(nèi)其他的語音識別公司

語音識別的門檻并不高,因此國內(nèi)各大公司也逐漸加入進來。搜狗開始采用的是云知聲的語音識別引擎,但很快就搭建起自己的語音識別引擎,主要應用于搜狗輸入法,效果也還可以。

騰訊當然不會落后,微信也建立了自己語音識別引擎,用于將語音轉換為文字,但這個做的還是有點差距。

阿里,愛奇藝,360,樂視等等也都在搭建自己的語音識別引擎,但這些大公司更多的是自研自用,基本上技術上泛善可陳,業(yè)界也沒有什么影響力。

當然,除了以上介紹的產(chǎn)業(yè)界的語音識別公司,學術界Cambridge的HTK工具對學術界研究推動巨大,還有CMU、SRI、MIT、RWTH、ATR等同樣推動語音識別技術的發(fā)展。

語音識別技術原理是什么?

對于語音識別技術,相信大家或多或少都已經(jīng)有了接觸和應用,上面我們也已經(jīng)介紹了國內(nèi)外主要的語音識別技術公司的情況。但你仍然可能想知道,語音識別技術的原理是什么?那么接下來就為大家做介紹。

語音識別技術

語音識別技術就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹募夹g。語音識別的目的就是讓機器賦予人的聽覺特性,聽懂人說什么,并作出相應的動作。目前大多數(shù)語音識別技術是基于統(tǒng)計模式的,從語音產(chǎn)生機理來看,語音識別可以分為語音層和語言層兩部分。

語音識別本質上是一種模式識別的過程,未知語音的模式與已知語音的參考模式逐一進行比較,最佳匹配的參考模式被作為識別結果。

當今語音識別技術的主流算法,主要有基于動態(tài)時間規(guī)整(DTW)算法、基于非參數(shù)模型的矢量量化(VQ)方法、基于參數(shù)模型的隱馬爾可夫模型(HMM)的方法、基于人工神經(jīng)網(wǎng)絡(ANN)和支持向量機等語音識別方法。

語音識別基本框圖

語音識別分類:

根據(jù)對說話人的依賴程度,分為:

(1)特定人語音識別(SD):只能辨認特定使用者的語音,訓練→使用。

(2)非特定人語音識別(SI):可辨認任何人的語音,無須訓練。

根據(jù)對說話方式的要求,分為:

(1)孤立詞識別:每次只能識別單個詞匯。

(2)連續(xù)語音識別:用者以正常語速說話,即可識別其中的語句。

語音識別系統(tǒng)

語音識別系統(tǒng)的模型通常由聲學模型和語言模型兩部分組成,分別對應于語音到音節(jié)概率的計算和音節(jié)到字概率的計算。

Sphinx是由美國卡內(nèi)基梅隆大學開發(fā)的大詞匯量、非特定人、連續(xù)英語語音識別系統(tǒng)。一個連續(xù)語音識別系統(tǒng)大致可分為四個部分:特征提取,聲學模型訓練,語言模型訓練和解碼器。

(1)預處理模塊

對輸入的原始語音信號進行處理,濾除掉其中的不重要的信息以及背景噪聲,并進行語音信號的端點檢測(找出語音信號的始末)、語音分幀(近似認為在10-30ms內(nèi)是語音信號是短時平穩(wěn)的,將語音信號分割為一段一段進行分析)以及預加重(提升高頻部分)等處理。

(2)特征提取

去除語音信號中對于語音識別無用的冗余信息,保留能夠反映語音本質特征的信息,并用一定的形式表示出來。也就是提取出反映語音信號特征的關鍵特征參數(shù)形成特征矢量序列,以便用于后續(xù)處理。

目前的較常用的提取特征的方法還是比較多的,不過這些提取方法都是由頻譜衍生出來的。

(3)聲學模型訓練

根據(jù)訓練語音庫的特征參數(shù)訓練出聲學模型參數(shù)。在識別時可以將待識別的語音的特征參數(shù)同聲學模型進行匹配,得到識別結果。

目前的主流語音識別系統(tǒng)多采用隱馬爾可夫模型HMM進行聲學模型建模。

(4)語言模型訓練

語言模型是用來計算一個句子出現(xiàn)概率的概率模型。它主要用于決定哪個詞序列的可能性更大,或者在出現(xiàn)了幾個詞的情況下預測下一個即將出現(xiàn)的詞語的內(nèi)容。換一個說法說,語言模型是用來約束單詞搜索的。它定義了哪些詞能跟在上一個已經(jīng)識別的詞的后面(匹配是一個順序的處理過程),這樣就可以為匹配過程排除一些不可能的單詞。

語言建模能夠有效的結合漢語語法和語義的知識,描述詞之間的內(nèi)在關系,從而提高識別率,減少搜索范圍。語言模型分為三個層次:字典知識,語法知識,句法知識。

對訓練文本數(shù)據(jù)庫進行語法、語義分析,經(jīng)過基于統(tǒng)計模型訓練得到語言模型。語言建模方法主要有基于規(guī)則模型和基于統(tǒng)計模型兩種方法。

(5)語音解碼和搜索算法

解碼器:即指語音技術中的識別過程。針對輸入的語音信號,根據(jù)己經(jīng)訓練好的HMM聲學模型、語言模型及字典建立一個識別網(wǎng)絡,根據(jù)搜索算法在該網(wǎng)絡中尋找最佳的一條路徑,這個路徑就是能夠以最大概率輸出該語音信號的詞串,這樣就確定這個語音樣本所包含的文字了。所以解碼操作即指搜索算法:是指在解碼端通過搜索技術尋找最優(yōu)詞串的方法。

連續(xù)語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。搜索所依據(jù)的是對公式中的聲學模型打分和語言模型打分。在實際使用中,往往要依據(jù)經(jīng)驗給語言模型加上一個高權重,并設置一個長詞懲罰分數(shù)。當今的主流解碼技術都是基于Viterbi搜索算法的,Sphinx也是。

語音識別技術的難點

說話人的差異

不同說話人:發(fā)音器官,口音,說話風格

同一說話人:不同時間,不同狀態(tài)

噪聲影響

背景噪聲

傳輸信道,麥克風頻響

魯棒性技術

區(qū)分性訓練

特征補償和模型補償

語音識別的具體應用

命令詞系統(tǒng)

識別語法網(wǎng)絡相對受限,對用戶要求較嚴格

菜單導航,語音撥號,車載導航,數(shù)字字母識別等等

智能交互系統(tǒng)

對用戶要求較為寬松,需要識別和其他領域技術的結合

呼叫路由,POI語音模糊查詢,關鍵詞檢出

大詞匯量連續(xù)語音識別系統(tǒng)

海量詞條,覆蓋面廣,保證正確率的同時實時性較差

音頻轉寫

結合互聯(lián)網(wǎng)的語音搜索

實現(xiàn)語音到文本,語音到語音的搜索

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內(nèi)容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉