Siri引領(lǐng)語音識別技術(shù)成熟
一位男子在電腦前坐下,然后輕聲說道:“計算機”。然而電腦并未作出任何反應(yīng),該男子對這電腦又說了一遍:“計算機”,還是沒有反應(yīng)。旁邊的人已經(jīng)沒有耐心,對他說:“用用鍵盤”。該男子回應(yīng)道:“鍵盤?真奇怪。”
以上場景出自1986年電影《星艦迷航記4》,工程師斯庫提(Scotty)以及其他船員從23世紀穿越回地球。斯庫提需要使用電腦完成一些工作,要知道他們在23世紀時全部使用的是語音命令,而不是上世紀80年代那樣的復(fù)古操作。
如果上述電影場景發(fā)生在35年之后,也就是現(xiàn)在,斯庫提仍舊會對電腦的毫無反應(yīng)感到困惑。除非他拿起一款最新智能機,該智能機可以對人類聲音做出回應(yīng),并成為了最新潮的人機互動方式,它就是iPhone 4S。
iPhone 4S
自從iPhone 4S十月份上市以來,人們開始購買并使用蘋果新手機的Siri功能。Siri是一項語音導(dǎo)航助手,可以接收語音命令,確定或取消約會,發(fā)送郵件,電話呼叫,網(wǎng)絡(luò)搜索。它能夠完成秘書所做到的一切。
Siri并不只是一項語音識別工具,它可以將語音轉(zhuǎn)化成文本,并以電郵或短信的方式發(fā)送出去。Siri可以對天氣情況進行預(yù)測,進行匯率轉(zhuǎn)換或提供股票價格,并對天氣現(xiàn)象進行解釋。
很多人認為Siri并不是一項新技術(shù),我們多年前就可以進行語音電話呼叫,谷歌也已經(jīng)提供了語音搜索應(yīng)用。但是專家稱,Siri可能代表的是一種更加精細的技術(shù)革命,就像iPhone在2007年1月推出時的多點觸摸屏。它不僅能進行語音呼叫和語音識別,還可以將語音轉(zhuǎn)化為文本,也就是“自然語言理解”(NLU)。
NLU
NLU連同圖像識別、智能機器是多年來一直未能解決的計算問題,不過現(xiàn)在我們可以讓機器強大到足以理解我們所說的話。NLU技術(shù)面臨的第一個挑戰(zhàn)就是語音向文本轉(zhuǎn)換的復(fù)雜性,發(fā)音的類似將導(dǎo)致處理結(jié)果的不同。其次,機器需要理解字面信息和畫外音。
IBM超級電腦沃森(Watson)今年2月震驚世界,它此前參加了智力競賽節(jié)目Jeopardy,并與Jeopardy兩位冠軍進行PK。IBM工程師表示,參見Jeopardy節(jié)目肯定不是沃森的最終目標,它展示的是此前電腦從未展示的能力,并與擁有廣泛知識詞匯的人類進行互動。
沃森現(xiàn)在開始著手解決人類健康問題,并使用了Nuance的語音轉(zhuǎn)文本技術(shù),未來還可能用來解決一些醫(yī)療難題。
技術(shù)實現(xiàn)
NLU是人們多年來一直希望實現(xiàn)的一項技術(shù)。1996年,比爾·蓋茨宣布,到2011年時,人們就能開發(fā)出具備人類語音和面部識別技術(shù)的電腦。就是在今年,如果把智能機算作電腦(最起碼智能機功能能夠達到2001年筆記本的水平),蓋茨的預(yù)言已經(jīng)實現(xiàn)。最新款A(yù)ndroid智能機已經(jīng)具備面部識別解鎖功能,語音功能我們?nèi)栽谂崿F(xiàn)。
然而現(xiàn)在的語音技術(shù)還不完美,Siri服務(wù)器已經(jīng)出現(xiàn)了多次宕機事故。不過Nuance公司的尼爾·格蘭特(Neil Grant)表示:“時間將會解決所有連接問題。”
隨著技術(shù)的日益成熟,人們與電腦間的語音互動也將會逐步實現(xiàn)。