www.久久久久|狼友网站av天堂|精品国产无码a片|一级av色欲av|91在线播放视频|亚洲无码主播在线|国产精品草久在线|明星AV网站在线|污污内射久久一区|婷婷综合视频网站

當前位置:首頁 > 智能硬件 > 人工智能AI
[導讀]   2017年終解讀:語音識別技術今年只走了一半的路   這一年,百度開放了語音平臺DuerOS,阿里補貼了4個億銷售百萬智能音箱搶占語音入口。而作為語音識別的先驅龍頭,大家開始擔心科大

  2017年終解讀:語音識別技術今年只走了一半的路

  這一年,百度開放了語音平臺DuerOS,阿里補貼了4個億銷售百萬智能音箱搶占語音入口。而作為語音識別的先驅龍頭,大家開始擔心科大訊飛用近二十年建立起來的技術壁壘被摧毀,有人扒訊飛的業(yè)務,有人開始扒訊飛十年的財報。

  這一年的人工智能大潮,無疑讓更多人關注科大訊飛,關心在這樣的潮流里,一家深耕語音識別的公司如何能獲得更多業(yè)務和利潤,如何能去迎合AI上升的趨勢,從而滿足人們對人工智能的所有期望。

  其實這一年,技術的進程還是和往年一樣。(我們從語音識別的角度來解讀2017年的進展,部分技術解讀來源自對訊飛的采訪)。

  2017,從數據提升開始說起

  去年IBM、微軟、谷歌和百度都發(fā)布過自家語音識別進展,而今年對媒體更新詞錯率進展的有三家:

  2017年3月,IBM結合了 LSTM 模型和帶有 3 個強聲學模型的 WaveNet 語言模型。“集中擴展深度學習應用技術終于取得了 5.5% 詞錯率的突破”。相對應的是去年5月的6.9%。

  2017年8月,微軟發(fā)布新的里程碑,通過改進微軟語音識別系統(tǒng)中基于神經網絡的聽覺和語言模型,在去年基礎上降低了大約12%的出錯率,詞錯率為5.1%,聲稱超過專業(yè)速記員。相對應的是去年10月的5.9%,聲稱超過人類。

  2017年12月,谷歌發(fā)布全新端到端語音識別系統(tǒng)(State-of-the-art Speech RecogniTIon With Sequence-to-Sequence Models),詞錯率降低至5.6%。相對于強大的傳統(tǒng)系統(tǒng)有 16% 的性能提升。

  大家的目標很一致,就是想“超過人類”,之前設定人類詞錯率為5.9%的這個界線。

  總結來說,因為Deep CNN引入之后,語音識別取得了很大的突破,例如谷歌從2013年到現在,性能提升了20%。

  而國內語音識別的企業(yè)如百度、搜狗、科大訊飛,識別率都在97%左右。在語音識別這件事情上,漢語比英語早一年超越人類水平。

  去年,科大訊飛又推出了全新的深度全序列卷積神經網絡(DFCNN)語音識別框架,該框架的表現比學術界和工業(yè)界最好的雙向 RNN 語音識別系統(tǒng)識別率提升了15% 以上。今年,在實際應用領域,訊飛輸入法的識別準確率在今年7月份也終于突破了97%,達到了98%。

  技術“可用”是第一步,但技術最終是要落地的,變成產品和服務才能實現價值。

  今年技術應用場景有什么變化?

  今年的產品落地,讓人聯想到的首先肯定是智能音箱。

  2016年的數據統(tǒng)計表明,中國智能音箱銷售量占全球比重為0.35%,6萬:1710萬臺的差距。在2017年雙十一阿里的補貼銷售之后,終于可以說“中國智能音箱銷量在百萬以上”,“中國的智能音箱得到了爆炸式的增長”。但從需求上說,智能音箱的功能集中在聽音樂、鬧鐘、智能家居等,這些功能并不屬于國人的“剛需”。BAT巨頭都將智能音箱作為語音入口進行搶占,也給了我們一種爆發(fā)的假象。

  但這一年,應用場景無疑是越來越豐富?;诟鱾€領域的應用拓展,智能語音技術已經走出安靜的室內或者私人環(huán)境,走上了服務大廳、賣場及行駛中的汽車等。技術的應用也越來越深入。機器翻譯、遠場識別、智能降噪、多輪交互、智能打斷等技術的進步,也又給智能語音的應用場景帶來了更多的變化。

  在智能車載領域,2017年科大訊飛發(fā)布的飛魚系統(tǒng)2.0,融合了 Barge-in全雙工語音交互技術,窄波束定向識別技術,自然語義理解技術,免喚醒技術,多輪對話技術等科大訊飛核心技術。目前,科大訊飛已經為超過200款車型,累計超過1000萬部車輛輸出了語音交互產品。

  此外,在新零售領域,智能語音技術的應用也在不斷擴展。比如12月18日,科大訊飛和紅星美凱龍發(fā)布戰(zhàn)略合作計劃,未來由科大訊飛研發(fā)的智能導購機器人“美美”將在全國紅星美凱龍門店上市。

  語音識別六十年,技術突破總是艱難而緩慢

  語音識別的研究起源可以追溯到上世紀50年代,AT&T貝爾實驗室的Audry系統(tǒng)率先實現了十個英文數字識別。

  從上世紀60年代開始,CMU的Reddy開始進行連續(xù)語音識別的開創(chuàng)性工作。但是這期間進展緩慢,以至于貝爾實驗室的約翰·皮爾斯(John Pierce)認為語音識別是幾乎不可能實現的事情。

  上世紀70年代,計算機性能的提升,以及模式識別基礎研究的發(fā)展,促進了語音識別的發(fā)展。IBM、貝爾實驗室相繼推出了實時的PC端孤立詞識別系統(tǒng)。

  上世紀80年代是語音識別快速發(fā)展的時期,引入了隱馬爾科夫模型(HMM)。此時語音識別開始從孤立詞識別系統(tǒng)向大詞匯量連續(xù)語音識別系統(tǒng)發(fā)展。

  上世紀90年代是語音識別基本成熟的時期,但是識別效果離實用化還相差甚遠,語音識別的研究陷入了瓶頸。

  關鍵突破起始于2006年。這一年辛頓(Hinton)提出深度置信網絡(DBN),促使了深度神經網絡(Deep Neural Network,DNN)研究的復蘇,掀起了深度學習的熱潮。2009年,辛頓以及他的學生默罕默德(D. Mohamed)將深度神經網絡應用于語音的聲學建模,在小詞匯量連續(xù)語音識別數據庫TIMIT上獲得成功。2011年,微軟研究院俞棟、鄧力等發(fā)表深度神經網絡在語音識別上的應用文章,在大詞匯量連續(xù)語音識別任務上獲得突破。國內外巨頭大力開展語音識別研究。

  科大訊飛的智能語音探索之路

  科大訊飛在2010年首批開展DNN語音識別研究,2011年上線了全球首個中文語音識別DNN系統(tǒng)。2012年,在語音合成領域首創(chuàng)RBM技術。2013年又在語種識別領域首創(chuàng)BN-ivec技術。2014年科大訊飛開始深度布局NLP領域,2015年,RNN語音識別系統(tǒng)全面升級。

  2016年,上線DFCNN(深度全序列卷積神經網絡,Deep Fully ConvoluTIonal Neural Network)語音識別系統(tǒng)。在和其他多個技術點結合后,科大訊飛DFCNN的語音識別框架在內部數千小時的中文語音短信聽寫任務上,相比目前業(yè)界最好的語音識別框架雙向RNN-CTC系統(tǒng)獲得了15%的性能提升,同時結合科大訊飛的HPC平臺和多GPU并行加速技術,訓練速度也優(yōu)于傳統(tǒng)的雙向RNN-CTC系統(tǒng)。DFCNN的提出開辟了語音識別的一片新天地,后續(xù)基于DFCNN框架,還將展開更多相關的研究工作。

  

  (圖1)DFCNN的結構如圖所示,它直接將一句語音轉化成一張語譜圖作為輸入,即先對每幀語音進行傅里葉變換,再將時間和頻率作為圖像的兩個維度,然后通過非常多的卷積層和池化(pooling)層的組合,對整句語音進行建模,輸出單元直接與最終的識別結果比如音節(jié)或者漢字相對應。

  

 ?。▓D2)

  在語音識別子領域上,今年科大訊飛的智能語音技術所取得的代表性的成就在自然語言理解領域。7月份,哈工大訊飛實驗室(HFL)刷新了斯坦福大學發(fā)起的SQuAD(Stanford QuesTIon Answering Dataset)機器閱讀理解挑戰(zhàn)賽全球紀錄,提交的“基于交互式層疊注意力模型”(Interactive Attention-over-Attention Model)取得了精確匹配77.845%和模糊匹配85.297%的成績,位列世界第一,也是中國本土研究機構首次取得賽事榜首。

  語音合成上,暴風雪競賽(Blizzard Challenge)是國際最權威的語音合成比賽??拼笥嶏w以語音合成技術率先達到4.0分的成績并連續(xù)12年蟬聯全球第一名,這是全世界唯一能讓語音合成技術能夠達到真人說話水平的系統(tǒng)。5.0分代表播音員的水平,4.0分代表美國普通老百姓的發(fā)音水平。

  在人機交互系統(tǒng)上,科大訊飛于11月發(fā)布了AIUI2.0系統(tǒng),支持遠場降噪、方言識別和多輪對話的技術的基礎上又增加了主動式對話、多模態(tài)交互、自適應、個性化識別等能力并能在嘈雜會場完成全雙工翻譯功能。

  而科大訊飛的云端語音開放平臺,截至2017年12月,累計終端數達到15億,日均交互次數達到40億,開發(fā)者團隊數已達50萬。

  語音識別還有哪些沒有解決的問題?

  深度學習應用到語音識別領域之后,詞錯率有顯著降低,但是并不代表解決了語音識別的所有問題。認識這些問題,想辦法去解決,是語音識別能夠取得進步的關鍵所在,將 ASR(自動語音識別)從“大部分時間僅適用于一部分人”發(fā)展到“在任何時候適用于任何人”。

  1.口音和噪聲

  語音識別中最明顯的一個缺陷就是對口音和背景噪聲的處理。最直接的原因是大部分的訓練數據都是高信噪比、帶有口音的語言。比如單是為美式口音英語構建一個高質量的語音識別器就需要 5000 小時以上的轉錄音頻,因而僅憑訓練數據很難解決掉這個問題。

  在中國,口音問題解決得比較好的,是科大訊飛??拼笥嶏w目前推出了22種方言相關的語音識別系統(tǒng),但對于那些音素體系與漢語不同的方言或外國語種,在成本問題上還沒有很好的辦法。

  2.多人會話

  每個說話人使用獨立的麥克風進行錄音,在同一段音頻流中不存在多個說話人的語音重疊,這種情況下的語音識別任務比較容易。然而,人類即使在多個說話人同時說話的時候也能夠理解說話內容。一個好的會話語音識別器必須能夠根據誰在說話對音頻進行劃分(Diarisation),還應該理解多個說話人語音重疊的音頻(聲源分離)。

  在利用語音技術推動輸入和交互模式變革的過程中,仍面臨這些阻礙。多人對話等場景下的語音識別率雖然很高,聲紋識別雖然也已經在實驗室實現,但距離實際應用還有一些距離。

  3.認知智能

  語音識別技術在質檢、安全等方面有很好的應用,但是對于人類所希望達到100%的識別率來說,從科研角度看肯定還有很多需要繼續(xù)努力的地方。比如減少語義錯誤、理解上下文上(機器的學習和推理),我們才僅觸及皮毛。“ 認知智能有沒有真正的突破,是這一輪人工智能熱潮——包括產業(yè)化熱潮——能不能進一步打開天花板、進一步形成更大規(guī)模的產業(yè)的關鍵技術所在”,2017年底,科技部正式發(fā)文將依托科大訊飛建立首個認知智能國家重點實驗室。

  未來五年內,語音識別領域仍然存在許多開放性和挑戰(zhàn)性的問題,如,在新地區(qū)、口音、遠場和低信噪比語音方面的能力擴展;在識別過程中引入更多的上下文;Diarisation 和聲源分離;評價語音識別的語義錯誤率和創(chuàng)新方法;超低延遲和高效推理等。盡管語音識別目前成果斐然,但剩下的難題和已克服的一樣令人生畏。雖然近幾年深度神經網絡的興起使得語音識別性能獲得了極大的提升,但是我們并不能迷信于現有的技術,總有一天新技術的提出會替代現有的技術。

  除技術外,一個AI企業(yè)的那些事兒

  人工智能催生了大量新技術、新企業(yè)和新業(yè)態(tài),人工智能火熱背景下, 作為A股人工智能龍頭股科大訊飛,曾在一個月猛增360多億元,市值突破千億。似乎很正契合普通百姓對“AI”神化的認知。

  2017年11月15日,中國新一代人工智能發(fā)展規(guī)劃暨重大科技項目啟動會在京召開,科技部公布我國第一批國家人工智能開放創(chuàng)新平臺,包括:1、依托百度公司建設自動駕駛國家新一代人工智能開放創(chuàng)新平臺;2、依托阿里云公司建設城市大腦國家新一代人工智能開放創(chuàng)新平臺;3、依托騰訊公司建設醫(yī)療影像國家新一代人工智能開放創(chuàng)新平臺;4、依托科大訊飛公司建設智能語音國家新一代人工智能開放創(chuàng)新平臺。作為首批入選國家新一代人工智能開放創(chuàng)新平臺,目前的科大訊飛,用劉慶峰的話說是“現在還未到達登頂的狀態(tài),只能說是已經開始登山,剛克服了爬坡之后的艱難,開始到慢慢適應的狀態(tài)”,如同語音識別技術現狀。

  人工智能是個大趨勢,本身也是需要很重投入的,但它也會有更長遠的影響,所以不能特別短視于此時此刻的回報上。“必須具備了強技術,才能形成剛需”,“就是要把技術做深做透,做到大家真正覺得有剛需”,劉慶峰說,“我們瞄準著五到十年更前沿的技術研究”。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯系該專欄作者,如若文章內容侵犯您的權益,請及時聯系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據媒體報道,騰訊和網易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數據產業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數據產業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數字經濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯合牽頭組建的NVI技術創(chuàng)新聯盟在BIRTV2024超高清全產業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現場 NVI技術創(chuàng)新聯...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉