互聯(lián)網(wǎng)巨頭AI領(lǐng)域混戰(zhàn),語音技術(shù)為何成重頭戲?
互聯(lián)網(wǎng)的下半場,多家巨頭公司將目光瞄準(zhǔn)了人工智能( AI ),更準(zhǔn)確的說法是,人工智能領(lǐng)域的語音識別技術(shù)。
錘子 M1 手機發(fā)布會上,科大訊飛快速精準(zhǔn)的語音轉(zhuǎn)換文字功能,讓普通大眾對語音識別技術(shù)有了直觀的深刻印象。
今年的云棲大會杭州主會場與其他一些分會場上,阿里云的“小 AI”機器人即時文字傳譯功能暗示,機器人要來搶同聲傳譯的飯碗了。
無獨有偶,第三屆世界互聯(lián)網(wǎng)大會上,搜狗也推出了實時機器翻譯產(chǎn)品,這款產(chǎn)品不僅能很快將搜狗 CEO 王小川的演講轉(zhuǎn)化為文字,而且還做出英文翻譯?;蛟S未來,語音識別技術(shù)真的會讓現(xiàn)場的同聲翻譯失業(yè)。
▲ 搜狗 CEO 王小川展示語音實時翻譯技術(shù)(Source:搜狗手機輸入法微博)
11 月 22 日,百度宣布開放四項全新語音技術(shù)接口,分別是情感合成、遠(yuǎn)場方案、喚醒二期技術(shù)與長語音方案。百度指出,這些技術(shù)有很大的潛力,旨在解決人們使用語音識別技術(shù)時普遍感到困擾的問題。
比如遠(yuǎn)場方案可將語音識別的范圍提高至 3 到 5 米,上??系禄炫灥甑?ldquo;小度機器人”使用這項技術(shù)后,可遠(yuǎn)距離隨時應(yīng)答。又比如情感合成,它能給合成語音加入情感,從而達(dá)到真人發(fā)聲的效果。
上述互聯(lián)網(wǎng)巨頭們,盡管發(fā)力 AI 的側(cè)重點不同,但都極為倚靠語音識別技術(shù),這是因為語音識別是最方便的人機交互方式,是人工智能的重要入口。百度公司首席科學(xué)家吳恩達(dá)就在語音識別技術(shù)取得新突破后,自信對媒體表示,“我們已經(jīng)站在人工智能的黎明”。
語音識別技術(shù)包含兩個層面,一是將語音進(jìn)行文字傳譯;二是將語音信號轉(zhuǎn)換為命令,從而操控機器人運行。目前來看,語音文字傳譯方面已經(jīng)取得了很好的成績,有的公司語音輸入準(zhǔn)確率已經(jīng)達(dá)到 97 %的水平,搜狗的語音翻譯方面,準(zhǔn)確率也已達(dá)到 90 %。
接下來,互聯(lián)網(wǎng)公司需要提高的是語音指令,比如提高機器識別語音的速度,并作出準(zhǔn)確的動作等。