智能語音技術(shù)將引領(lǐng)人機(jī)交互的新模式
邊錄音邊自動轉(zhuǎn)寫成文字的智能錄音筆,支持中文與58種外語互譯的新一代翻譯機(jī)、模仿不同人說話的虛擬主播、供開發(fā)者使用的語音開放平臺。在科大訊飛股份有限公司北京總部的人工智能體驗(yàn)中心,眾多人工智能與語音融合的前沿技術(shù)項(xiàng)目令記者大開眼界。
在即將到來的萬物互聯(lián)時(shí)代,語音作為人類最自然、最便捷的溝通方式,將會成為所有設(shè)備和產(chǎn)品至關(guān)重要的入口。業(yè)界普遍認(rèn)為,未來的人機(jī)交互將以語音為主、鍵盤和觸摸為輔。
近年來,隨著智能語音應(yīng)用場景和手段不斷豐富,國內(nèi)眾多技術(shù)廠商在語音合成、語音識別、自然語言理解等人工智能核心技術(shù)領(lǐng)域持續(xù)發(fā)力。有理由相信,智能語音技術(shù)將給人們生活帶來更為深刻的改變。
提起科大訊飛,很多人會想到其主打語音輸入特色的“訊飛輸入法”。這款早在2010年就推出的軟件,版本號已經(jīng)到了第9代。語音輸入速度達(dá)到1分鐘400字,并支持多種方言,準(zhǔn)確率超過98%。在科大訊飛人工智能體驗(yàn)中心,工作人員安琪向記者演示了包括訊飛輸入法、訊飛聽見、訊飛有聲等在內(nèi)的多個軟硬件產(chǎn)品。
“現(xiàn)在我們看到的就是一個離線轉(zhuǎn)寫設(shè)備,叫訊飛聽見智能會議系統(tǒng),是全球第一款中文語音實(shí)時(shí)轉(zhuǎn)寫和多語種實(shí)時(shí)翻譯的系統(tǒng)……”安琪說了一段話,系統(tǒng)立即在屏幕上輸出準(zhǔn)確的中文和翻譯后的英文。工作人員在演示可用于大型會議翻譯的訊飛聽見智能會議系統(tǒng),說一段話,屏幕上同時(shí)顯示出中文和英語譯文。
據(jù)介紹,今年全國兩會期間,代表委員們在小組討論中的發(fā)言被這套系統(tǒng)“滴水不漏”地記錄下來。以前的小組討論,需配兩三名工作人員,會后重聽錄音是常態(tài)。有了“訊飛聽見”,只需配一名工作人員,會后半個小時(shí)就能得到準(zhǔn)確的會議記錄。
語音識別就好比“機(jī)器的聽覺系統(tǒng)”,能夠把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。安琪介紹,隨著深度學(xué)習(xí)技術(shù)快速發(fā)展,科大訊飛在語音識別任務(wù)中率先實(shí)現(xiàn)規(guī)模應(yīng)用。2015年,在公證人員的見證下,科大訊飛機(jī)器語音轉(zhuǎn)寫準(zhǔn)確率首次超過速記員。針對于噪聲環(huán)境下語音識別的挑戰(zhàn),科大訊飛在國際最權(quán)威的多通道語音分離和英文識別大賽(2016年CHiME-4和2018年CHiME-5)中,連續(xù)兩屆所有場景下均取得了世界第一。
另一款能快速轉(zhuǎn)寫錄音的小型設(shè)備吸引了記者的注意,這是今年5月新推出的訊飛智能錄音筆。
“在研發(fā)之初,我們經(jīng)過調(diào)研發(fā)現(xiàn),81%的傳統(tǒng)錄音筆用戶真正需要的不是錄音,而是錄音整理出的文字。像記者采訪、會議記錄這些場景,錄完音后都需要及時(shí)將文字內(nèi)容快速整理出?!卑茬髡f,訊飛智能錄音筆在聯(lián)網(wǎng)狀態(tài)下,1小時(shí)的錄音出稿只需5分鐘,中文普通話識別準(zhǔn)確率高達(dá)98%,真正打通了從錄音到轉(zhuǎn)寫再到分享以及后端查找編輯的全鏈條服務(wù)。
智能音箱是如今語音識別技術(shù)的熱門應(yīng)用。市場研究機(jī)構(gòu)最新數(shù)據(jù)顯示,中國已成為全球最大的智能音箱市場,僅今年第一季度銷量就達(dá)到1060萬臺??拼笥嶏wMORFEI麥克風(fēng)產(chǎn)品原型,搭載4+4雙環(huán)結(jié)構(gòu)麥克風(fēng),可實(shí)現(xiàn)遠(yuǎn)場空間全方位拾音。
通常情況下,每次對智能音箱下指令前,都需要提關(guān)鍵詞來喚醒,顯得“不夠智能”。而科大訊飛推出的MORFEI麥克風(fēng),內(nèi)置了AIUI全雙工語音交互解決方案,可以實(shí)現(xiàn)一次喚醒、連續(xù)問答。其遠(yuǎn)場語音識別技術(shù),更是能在5米距離下達(dá)到95%以上的喚醒率、93%的識別率。
同樣受益的還有汽車領(lǐng)域。通過融合語音、視覺等感知技術(shù),分析駕駛行為數(shù)據(jù),整合優(yōu)質(zhì)內(nèi)容資源,科大訊飛推出的飛魚智行智能車載交互系統(tǒng),將語音增強(qiáng)、自然語言理解等技術(shù)應(yīng)用于汽車,并與各場景服務(wù)深度結(jié)合。