智能語(yǔ)音識(shí)別大熱 但需合理限定避免濫用[圖]
掃描二維碼
隨時(shí)隨地手機(jī)看文章
7月9日消息,據(jù)國(guó)外媒體報(bào)道,蘋(píng)果正在測(cè)試Dragon Dictation語(yǔ)音輸入功能的本地離線(xiàn)版本,在未來(lái)的iOS設(shè)備中將可能增加離線(xiàn)語(yǔ)音輸入功能。而在去年的谷歌I/O大會(huì)上,谷歌發(fā)布了Android4.1系統(tǒng),其中就增加了離線(xiàn)語(yǔ)音輸入功能。蘋(píng)果引入該項(xiàng)Android已有的功能,旨在讓iOS7生態(tài)系統(tǒng)更加完善。
Dragon Dictation是由著名的語(yǔ)音識(shí)別軟件公司Nuance開(kāi)發(fā)的,適用于iPhone,iPad和 iPod touch用戶(hù)的一款語(yǔ)音識(shí)別應(yīng)用軟件,能將用戶(hù)的語(yǔ)音轉(zhuǎn)換成文字。目前的DragonDictation在進(jìn)行語(yǔ)音輸入時(shí),iOS系統(tǒng)會(huì)利用軟件將語(yǔ)音上傳至云端,然后將其轉(zhuǎn)變成文本。這種方式需要互聯(lián)網(wǎng)連接且大多數(shù)情況下需要長(zhǎng)時(shí)間載入,對(duì)用戶(hù)來(lái)說(shuō)使用并不方便。
離線(xiàn)語(yǔ)音輸入功能將提高智能語(yǔ)音技術(shù)體驗(yàn)
語(yǔ)音輸入需要流量,如果普通話(huà)不太標(biāo)準(zhǔn)也會(huì)受影響,同時(shí)還存在吵鬧環(huán)境中無(wú)法有效識(shí)別的問(wèn)題。離線(xiàn)語(yǔ)音輸入功能引入iOS7,iOS設(shè)備將不需要網(wǎng)絡(luò)連接就可以直接處理和轉(zhuǎn)換語(yǔ)音,這將會(huì)大大加快語(yǔ)音輸入郵件、短信、筆記的速度。
業(yè)內(nèi)人士猜測(cè),蘋(píng)果可能會(huì)將該技術(shù)從Dragon Dictation轉(zhuǎn)至Siri,從而使得該語(yǔ)音助手更加快速地回應(yīng)特定請(qǐng)求。如果Dragon Dictation能和Siri相結(jié)合的話(huà),將極大的提高Siri的響應(yīng)速度和削弱對(duì)網(wǎng)絡(luò)的依賴(lài),而使智能語(yǔ)音技術(shù)體驗(yàn)大幅度提高。
智能語(yǔ)音技術(shù)與傳統(tǒng)的語(yǔ)音識(shí)別有所不同。傳統(tǒng)的語(yǔ)音識(shí)別是將用戶(hù)所說(shuō)的語(yǔ)音正確的識(shí)別轉(zhuǎn)化為文本,比較有代表性的即為Google的Voice Search。而智能語(yǔ)音技術(shù)就是在傳統(tǒng)語(yǔ)音識(shí)別的基礎(chǔ)上更進(jìn)一步,對(duì)進(jìn)行了語(yǔ)義的理解,并根據(jù)用戶(hù)語(yǔ)音的意圖進(jìn)行回答,讓機(jī)器像人一樣“能聽(tīng)會(huì)說(shuō)”的技術(shù),它帶來(lái)了人機(jī)交互的根本性變革。
那么智能語(yǔ)音技術(shù)是如何做到語(yǔ)義識(shí)別的?
在如上圖所示的智能語(yǔ)音技術(shù)原理中,用戶(hù)語(yǔ)音首先被語(yǔ)音識(shí)別服務(wù)轉(zhuǎn)換為文字,發(fā)送至云端服務(wù)器對(duì)語(yǔ)音識(shí)別所獲得文字進(jìn)行語(yǔ)義和語(yǔ)法的識(shí)別判斷,以“我想在辦公室附近找個(gè)浪漫點(diǎn)的地方吃意大利菜”為例,智能語(yǔ)音技術(shù)在獲得文本后,根據(jù)其語(yǔ)法模型進(jìn)行語(yǔ)法分析,得出此為一個(gè)“主語(yǔ)+謂語(yǔ)+賓語(yǔ)+副詞”的句法結(jié)構(gòu)。其中,主語(yǔ)為“我”,即用戶(hù),“想找一個(gè)浪漫的地方”說(shuō)明用戶(hù)希望找一個(gè)地方,此地方的特征是“浪漫”, “意大利菜”說(shuō)明用戶(hù)的目的是吃飯,而且是意大利食品,并且用戶(hù)要求“辦公室附近”。
根據(jù)這些關(guān)鍵信息,智能語(yǔ)音技術(shù)按照算法,判斷用戶(hù)可能是在尋找一個(gè)在自己附近的浪漫的意大利餐廳。之后,利用服務(wù)提供商的搜索引擎搜索,并將結(jié)果的文字按照語(yǔ)法進(jìn)行整合,形成回答。
智能語(yǔ)音技術(shù)日益重要 前景廣闊 多家公司進(jìn)場(chǎng)PK
隨著智能終端、無(wú)線(xiàn)網(wǎng)絡(luò)的廣泛普及,在移動(dòng)互聯(lián)網(wǎng)時(shí)代,智能語(yǔ)音技術(shù)的重要性日益顯現(xiàn)。
Strategy Analytics的統(tǒng)計(jì)表明,2012年,中國(guó)原始設(shè)備制造商(OEM)所提供的具備語(yǔ)音人機(jī)接口的信息娛樂(lè)和車(chē)載信息通信系統(tǒng)(telematics)的出貨量達(dá)到300萬(wàn)臺(tái),并預(yù)期在2018年達(dá)到2000萬(wàn)臺(tái)。在北美和歐洲市場(chǎng),帶語(yǔ)音交互功能的車(chē)載設(shè)備應(yīng)用已很普及。
福特SYNC系統(tǒng),即專(zhuān)為手機(jī)和數(shù)字媒體播放器配備的福特車(chē)載多媒體通信娛樂(lè)系統(tǒng),是目前車(chē)載系統(tǒng)中采用語(yǔ)音交互技術(shù)的成功的案例。搭載SYNC系統(tǒng)后,配合汽車(chē)中控臺(tái)上的顯示屏,可通過(guò)語(yǔ)音控制、兼容并操控便攜式通信/娛樂(lè)設(shè)備等方式,讓駕駛者在開(kāi)車(chē)過(guò)程中更輕松,便捷地實(shí)現(xiàn)諸如語(yǔ)音撥號(hào)、語(yǔ)音播出短信內(nèi)容、語(yǔ)音控制音樂(lè)播放等功能。
而汽車(chē)業(yè)之外,移動(dòng)互聯(lián)網(wǎng)終端大概是目前最熱衷采用智能語(yǔ)音技術(shù)的一類(lèi)產(chǎn)品了。2011年10月,蘋(píng)果率先推出了智能語(yǔ)音助理應(yīng)用Siri,并在2012年6月發(fā)布的IOS6中支持中文服務(wù);Google公司也在其安卓智能手機(jī)操作系統(tǒng)中推出了Google Now智能語(yǔ)音搜索及問(wèn)答服務(wù);微軟公司已經(jīng)利用DNNS(深度神經(jīng)網(wǎng)絡(luò))改進(jìn)語(yǔ)音識(shí)別系統(tǒng),將Windows Phone系統(tǒng)的語(yǔ)音識(shí)別引擎速度提高1倍,將詞匯錯(cuò)誤率降低了15%。
除了智能語(yǔ)音識(shí)別,我們?cè)賮?lái)看看語(yǔ)音輸入法的歷史。語(yǔ)音輸入應(yīng)用到手機(jī)上還是訊飛輸入法的首創(chuàng)。
2010年10月,訊飛語(yǔ)音云發(fā)布,并推出了訊飛語(yǔ)音輸入法Android平臺(tái)的第一個(gè)版本,拉開(kāi)了移動(dòng)互聯(lián)網(wǎng)語(yǔ)音應(yīng)用熱潮的序幕;
2011年7月,谷歌在谷歌拼音輸入法(Android)中加入了中文語(yǔ)音輸入功能;
2012年5月,百度手機(jī)輸入法v3.0版本發(fā)布,新增了語(yǔ)音輸入功能;
2012年6月,蘋(píng)果召開(kāi)新聞發(fā)布會(huì),介紹最新的IOS 6中加入了中文語(yǔ)音輸入功能。
現(xiàn)在,幾乎每一家手機(jī)廠商都試圖將語(yǔ)音技術(shù)融于其移動(dòng)產(chǎn)品、應(yīng)用和服務(wù)中。這其中最主要的一個(gè)原因就是這類(lèi)終端設(shè)備外型小巧,觸摸輸入很不方便,這種情況下,語(yǔ)音交互就變成了一種非常必要的人機(jī)溝通的補(bǔ)充方式。
語(yǔ)音識(shí)別需謹(jǐn)慎 范圍要界定好
去年10月,蘋(píng)果公司Siri中文版被爆“涉黃”,用戶(hù)可使用語(yǔ)音指令查詢(xún)到附近的“三陪”信息。蘋(píng)果公司在面對(duì)公眾壓力兩周之后做出反應(yīng),從搜索源頭屏蔽了相關(guān)內(nèi)容,使用戶(hù)無(wú)法搜再出“涉黃”信息。
“Tits &Glass”是Google Glass上首款色情應(yīng)用,上線(xiàn)幾小時(shí)后就被下架,Google還專(zhuān)門(mén)為其修改了開(kāi)發(fā)者政策,禁止 Google Glass應(yīng)用出現(xiàn)成人內(nèi)容,但這款應(yīng)用沒(méi)多久后在Google Glass上重新上架,只是用戶(hù)不再能直接分享圖片給你的Google+ 好友。而Google Glass在使用中一般只展示圖片和標(biāo)題,大部分密集文字內(nèi)容都是通過(guò)智能語(yǔ)音朗讀來(lái)完成,這就對(duì)色情應(yīng)用提供了土壤,使其可能被濫用。
語(yǔ)音識(shí)別功能雖然逐漸智能化人性化,但是發(fā)展范圍研發(fā)公司一定要做合理的限定,避免技術(shù)被濫用。