當前位置：首頁 > 嵌入式 > 嵌入式動態(tài)

可以預(yù)料的語音識別的未來

時間：2017-04-20 15:32:37

關(guān)鍵字：技術(shù)前沿語音識別

手機看文章

掃描二維碼
隨時隨地手機看文章

[導(dǎo)讀]語音識別是一門交叉學(xué)科。近二十年來，語音識別技術(shù)取得顯著進步，開始從實驗室走向市場。人們預(yù)計，未來10年內(nèi)，語音識別技術(shù)將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。語音識別聽寫機在一些領(lǐng)域的應(yīng)用被美國新聞界評為1997年計算機發(fā)展十件大事之一。很多專家都認為語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。語音識別技術(shù)所涉及的領(lǐng)域包括：信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。對語音識別未來發(fā)展，各位大咖也有一些精彩

語音識別是一門交叉學(xué)科。近二十年來，語音識別技術(shù)取得顯著進步，開始從實驗室走向市場。人們預(yù)計，未來10年內(nèi)，語音識別技術(shù)將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。語音識別聽寫機在一些領(lǐng)域的應(yīng)用被美國新聞界評為1997年計算機發(fā)展十件大事之一。很多專家都認為語音識別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。語音識別技術(shù)所涉及的領(lǐng)域包括：信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。對語音識別未來發(fā)展，各位大咖也有一些精彩論點。

科大訊飛研究院副院長——王士進

王士進表示，語音識別是人機交互里很重要的模塊，從PC時代到現(xiàn)在的移動互聯(lián)時代，人機交互由鼠標鍵盤走向智能手機、Pad等的多點觸摸。到了智能硬件時代，交互則更加多元，不僅有觸摸，還有基于語音、視覺的交互。原本是以機器為中心的人機交互，逐漸走向以人為中心的自然交互。

他認為，在將來萬物互聯(lián)的浪潮下，以語音為主，鍵盤、觸摸、視覺、手勢為輔的交互時代很快會到來。

提到傳統(tǒng)的語音交互，王士進列舉了幾個缺點：第一，交互距離要近;第二，發(fā)音必須標準;第三，環(huán)境必須安靜;第四，人機不能持續(xù)對話。

科大訊飛在2015年提出AIUI，旨在解決上述問題同時期望在人工智能時代提供一種智能的人機交互界面。AIUI提供遠場喚醒和識別降噪方案，兼容全國近17種方言，可以進行全雙工交互和基于業(yè)務(wù)場景的多輪對話，同時結(jié)合訊飛超腦的認知智能使得機器進行更智能的交互。

AIUI實現(xiàn)了軟硬一體化、云端一體化、技術(shù)服務(wù)一體化，通過三個一體化提供人機智能交互整體解決方案，使得用戶可以快速切換到新的業(yè)務(wù)場景。

在提到基于AIUI交互技術(shù)的一些商業(yè)化嘗試時，王士進列舉了幾種：

在交流方面，科大訊飛在05年推出了聽見智能會議這款產(chǎn)品。一般來說，會議場景的同傳準確率為80%左右，而智能會議轉(zhuǎn)寫準確率則能達到90%以上，之后，其在醫(yī)療和司法系統(tǒng)進行了應(yīng)用。另外，科大訊飛還推出了便攜翻譯機，易于隨身攜帶，方便遠程實時交流。

在電視方面，最早的電視是用數(shù)字加上下左右按鍵控制僅有的十幾個臺，而現(xiàn)在的智能電視后臺對接海量資源，通過訊飛智能電視助手可以進行方便的語音交互，節(jié)省時間。

在汽車方面，由于人在駕駛時候手不能離開方向盤，故把語音引入代替手進行交互會方便許多。實際上相比其他應(yīng)用場景，語音識別由于汽車場景的噪音更強，面臨更大挑戰(zhàn)，而科大訊飛也在基于車載的語音識別做了許多優(yōu)化，更在寶馬、奔馳、通用舉行的全球車載語音識別比賽取得第一名，有效的支撐了車載場景的交互。

在機器人方面，機器人與人的語音交互滿足自然交互、個性化服務(wù)以及基于業(yè)務(wù)場景的整合服務(wù)，可以方便的任意打斷，在理解用戶的需求下進行精準的內(nèi)容推薦和服務(wù)。

語音識別和自然語言理解都是基于統(tǒng)計和概率體系，所以商業(yè)化過程建議選擇人受到一定限制(如車載)或者很難做百分之百正確(如會議同傳)的場景，然后隨著技術(shù)的進一步成熟，可以進入到更多的場景。

最后，王士進總結(jié)道，“語音識別和人機交互技術(shù)在進行技術(shù)優(yōu)化的同時更要結(jié)合應(yīng)用場景，最終可使得技術(shù)完善，產(chǎn)業(yè)更好的發(fā)展。”

百度語音技術(shù)部聲學(xué)技術(shù)負責(zé)人——李先剛

提到這些年對手機百度語音搜索的不斷優(yōu)化過程，李先剛認為要做好這樣一個產(chǎn)品，先要收集相關(guān)數(shù)據(jù)，然后將語音識別應(yīng)用推廣到相關(guān)產(chǎn)品線上供用戶使用，用戶使用后反饋回來數(shù)據(jù)形成完整鏈條，最終達到非常完美的狀態(tài)。

他把輸入法在語音識別中的作用表述為：輸入法這一場景對語音識別性能提升有非常大的幫助。

而今年，百度在語音技術(shù)方面的進展包括基于GramCTC的端對端語音識別系統(tǒng)以及端對端說話人識別技術(shù)。

基于CTC的端對端語音識別系統(tǒng)是目前主流的工業(yè)系統(tǒng)，在2015年底，百度實現(xiàn)了CTC端對端語音識別系統(tǒng)的上線。而今年，百度進一步提出了GramCTC算法。

主流的說話人識別技術(shù)使用經(jīng)典的DNN-IVECTOR技術(shù)，其框架基于統(tǒng)計模型，并將DNN引入此框架去學(xué)習(xí)。

可以看到的是，語音識別已走向大數(shù)據(jù)和端對端的道路，百度也將把說話人識別技術(shù)向此發(fā)展，進一步提升相關(guān)性能。

李先剛表示，人臉識別與說話人識別有技術(shù)共性，二者之間的差異僅僅只是人臉識別對象可以是固定尺寸的圖片，而語音的時長會有很多變化。因此，百度說話人識別技術(shù)借鑒了目前人臉識別最好的方法——度量學(xué)習(xí)，搭建了端對端度量學(xué)習(xí)的說話人識別系統(tǒng)。百度內(nèi)部的實驗顯示，基于端對端的說話人技術(shù)顯著提升了說話人識別的性能。

從商業(yè)化的角度分析語音識別，可將其應(yīng)用分為兩個維度，第一個是近場和遠場，第二個是人配合機器說話和人對人說話的不同說話風(fēng)格。經(jīng)過這樣劃分會發(fā)現(xiàn)很多語音場景其實是處在不同的語音象限里面，目前業(yè)界所做的近場人對機器說話的識別準確率可達90%以上，但另外幾個場景所做不盡人意。

在李先剛看來，隨著語音技術(shù)的推進，輔之商業(yè)化情景必將推動產(chǎn)品和技術(shù)的發(fā)展。

搜狗語音交互技術(shù)中心研發(fā)總監(jiān)——陳偉

從2012年到現(xiàn)在，隨著數(shù)據(jù)和算法的提升，搜狗的語音識別的識別錯誤率是逐年下降的。陳偉分享了一組數(shù)據(jù)：到目前為止，搜狗輸入法每天的語音識別請求量高達2億次，每天產(chǎn)生語料達到18萬小時。

陳偉表示，搜狗在2016年發(fā)布知音引擎，對外輸出完整的語音交互解決方案，也一直在探索語音識別和交互的不同場景和經(jīng)驗。語音識別可以更好提升輸入、記錄、交流的效率，其可分為聽寫和轉(zhuǎn)寫，聽寫更多要求實時性，轉(zhuǎn)寫則面向客服數(shù)據(jù)，不要求實時。另外，語音識別技術(shù)面向不同客戶，除了直接提供給消費者，還有一些公司、企業(yè)如法院、醫(yī)院等，語音識別的應(yīng)用場合則更多是在演講、直播、語音分析中。

語音識別不是一個單獨的技術(shù)，其需要同其他技術(shù)進行融合，比如機器同傳、語音交互，未來的產(chǎn)品將會是技術(shù)與技術(shù)的組合，產(chǎn)品與產(chǎn)品的組合。

對如何做出一款好的語音交互產(chǎn)品，陳偉認為首先是要重視場景和知識。只有技術(shù)(ASR、NLU等)與具體應(yīng)用場景比如車載、智能家具、可穿設(shè)備結(jié)合在一起，才能得到穩(wěn)定的產(chǎn)品。另外，僅僅有技術(shù)是不夠的，還需要技術(shù)創(chuàng)新。在得到良好的使用體驗之后用戶基數(shù)會擴大，帶來更多數(shù)據(jù)，這些累積的數(shù)據(jù)也是推動技術(shù)提升的關(guān)鍵。只有有了產(chǎn)品的迭代、有了真實的數(shù)據(jù)才能更好的分析出用戶需求，更好的推動產(chǎn)品發(fā)展。

他表示，技術(shù)與產(chǎn)品缺一不可。

“語音交互以技術(shù)為驅(qū)動，加之好的運算力帶來大量數(shù)據(jù)，以此進行迭代，不斷通過技術(shù)和產(chǎn)品的耦合得到更好的產(chǎn)品。”

思必馳CMO——龍夢竹

“目前的語音產(chǎn)品識別率再高，也只是作為一個參考。”

龍夢竹提到，在識別率的數(shù)字背后，諸如降噪、遠場、回聲消除及聲源定位等也需要關(guān)注。

那這幾個詞在整個語音技術(shù)里面有什么作用呢?

其可以影響識別率和準確性以及是判斷語音交互產(chǎn)品是否實用的重要方向。

目前，各個公司做的都是端到端的，非配合的私人交互系統(tǒng)，在這整個系統(tǒng)里基本分為三個層面：從感知、到認知、到抽象思維的智能。

首先從感知的方向，要保障機器能夠聽得清，在克服環(huán)境、降噪的方面有很大挑戰(zhàn)的。以思必馳為例，其依靠強大的數(shù)據(jù)庫，已經(jīng)把錯詞率降低到了7.19%，比業(yè)界普遍的10%有了非常大的效率提升。

另外，聽清以后需要讓機器快速反應(yīng)。常常會有客戶好奇“你們的產(chǎn)品是本地還是云端?”實際上，現(xiàn)在業(yè)界包括思必馳所做的都是本地+云端，一些簡單的喚醒詞、指令可能會放在本地。思必馳目前的本地識別指令最高支持三千條，當然，最高支持數(shù)目和產(chǎn)品的硬件配置、系統(tǒng)是相關(guān)的。而更多的需要交流的，需要機器思考的部分放到云端。

最后，機器能夠聽清并且能夠快速反應(yīng)了，反應(yīng)出來的效果如何?這個效果用專業(yè)術(shù)語可以稱為TTS，TTS的優(yōu)劣很大程度會決定產(chǎn)品體驗的優(yōu)劣。許多人理解的TTS可能是明星的合成音，而這些合成音不能適用于所有場景。

目前業(yè)界提出的97%、98%、99%的識別率這只是單獨針對語音識別而言，在不同的領(lǐng)域、場景下，針對不同業(yè)務(wù)方向的語音識別和語意理解其實是有層次不齊的，這個圖顯示了在家庭和車載環(huán)境下不同的準確率。

龍夢竹談到，無論在哪個領(lǐng)域做語音交互技術(shù)，都必須要滿足幾個要求：

第一要滿足用戶剛需;

第二不一定是高頻使用，但在某一場景能讓用戶形成依賴性;

第三，語音技術(shù)背后一定要有第三方的內(nèi)容和服務(wù)作支持，因為它只是一種交互手段;

“我們一再強調(diào)的是，語音只是一個交互的手段，而不是一種功能。”現(xiàn)在的語音還沒有達到全國人民普及的程度，但未來一定會實現(xiàn)。而這一手段，其背后第三方的內(nèi)容和服務(wù)是比語音本身更重要的東西。

最后，交互體驗一定要好。

本站聲明：本文章由作者或相關(guān)機構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點，本站亦不保證或承諾內(nèi)容真實性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系本站刪除。

換一批

基于ESP8266協(xié)議的智能脫機模塊，可以像集線器一樣向不同的從設(shè)備發(fā)送命令

一個離線語音識別中心，沒有網(wǎng)絡(luò)連接，沒有無線路由器。只要一對運行ESPNOW協(xié)議的ESP8266。這就是我想要的房間。這些設(shè)備既可以通過按開關(guān)控制，也可以通過聲音控制。像alexa這樣的中央集線器可以響應(yīng)你的命令。這篇文...

關(guān)鍵字： ESP8266 語音識別傳感器固態(tài)繼電器

[美通社全球TMT]

安聯(lián)世合中國斬獲"2024年度行業(yè)創(chuàng)新引領(lǐng)獎"

北京2025年2月24日 /美通社/ -- 在近日揭曉的STIF第五屆國際科創(chuàng)節(jié)暨2024新質(zhì)生產(chǎn)力領(lǐng)航者峰會獎項評選中，安聯(lián)世合中國憑借其卓越的創(chuàng)新實踐與行業(yè)領(lǐng)導(dǎo)力，榮膺&...

關(guān)鍵字：人工智能語音識別大數(shù)據(jù) 智能語音

[《嵌入式技術(shù)與智能系統(tǒng)》]

面向獨居老人的智能居家監(jiān)護系統(tǒng)

隨著人口老齡化程度加深，社會養(yǎng)老負擔(dān)加重，處理好全社會的養(yǎng)老問題十分重要。在全球范圍內(nèi)，老人身體健康受到許多致命疾病的威脅。而獨居老人生活中缺少家人照顧，心理上缺少慰藉，導(dǎo)致患病率更高，同時發(fā)生意外也無法及時得到救助。面...

關(guān)鍵字：獨居老人語音識別姿態(tài)檢測智能家居

[消費電子]

智能音箱的語音識別算法優(yōu)化與實現(xiàn)

隨著人工智能技術(shù)的快速發(fā)展，智能音箱已經(jīng)成為我們?nèi)粘Ｉ钪胁豢苫蛉钡囊徊糠?。它們通過語音識別技術(shù)，實現(xiàn)了人機交互的便捷性，使得用戶可以通過語音指令控制家居設(shè)備、查詢信息、播放音樂等。然而，語音識別技術(shù)的準確性和實時性仍然...

關(guān)鍵字：智能音箱語音識別

[IoT設(shè)計分享]

語音識別在樹莓派語音控制家庭自動化

“Ok 谷歌做我的家庭作業(yè)”——如果這個命令有效，我們的童年將會很簡單，不是嗎?但是有些事情是要我們自己來做的，當然，我們不會設(shè)計一些東西來幫你完成作業(yè)。然而，我們都承認用語音指令做事很有趣!!這就是為什么我們已經(jīng)建立了...

關(guān)鍵字：語音識別樹莓派自動化 Arduino

[技術(shù)前線]

詳解語音是如何變?yōu)槲淖值?/a>

語音識別技術(shù)是一種人工智能領(lǐng)域的技術(shù)，它能夠?qū)⑷祟惖穆曇粜盘栟D(zhuǎn)化為文字。語音識別系統(tǒng)主要包括三個主要部分：預(yù)處理、特征提取和模式匹配。

關(guān)鍵字：語音語音識別

[技術(shù)前線]

語音識別的應(yīng)用分析

隨著人工智能技術(shù)的快速發(fā)展，語音識別作為其中的一項重要技術(shù)，正逐漸在各個領(lǐng)域展現(xiàn)出巨大的潛力和應(yīng)用前景。語音識別技術(shù)能夠?qū)⑷祟惖恼Z音信息轉(zhuǎn)換為文本，為智能家居、智能助手等領(lǐng)域帶來了智能化、便捷化的體驗。

關(guān)鍵字：人工智能語音語音識別

[21ic編輯部]

實現(xiàn)更高性價比的端側(cè)AI語音識別，啟英泰倫科技于松山湖論壇發(fā)布CI135X系列

在現(xiàn)代機器人技術(shù)的發(fā)展中，語音AI芯片是實現(xiàn)高級人機交互的關(guān)鍵組件之一。這種芯片不僅使機器人能夠接收和解析語音指令，而且能夠使機器人理解和響應(yīng)人類語言的復(fù)雜性，這在提高機器人的功能性和互動性方面起著至關(guān)重要的作用。

關(guān)鍵字：端側(cè)AI 語音識別啟英泰倫松山湖論壇 CI135X

[智能應(yīng)用]