隨著技術的發(fā)展,人機交互界面在不斷改進,從最初的命令行、窗口圖形界面再到觸摸屏,人機交互的方式變得越來越人性化。觸摸屏之后,又會有哪種交互方式帶來新的變革呢?無疑,語音技術最令人期待,因為它是人類最自然的交流方式。試想,如果你家的電器設備都能像你的朋友一樣聽懂你的要求,并按照你的要求作出正確的反應,那該是多么美妙的體驗。時下,這種語音交互技術正越來越多地應用到我們身邊的電子設備中。
早在2011年,IBM的超級電腦“沃森”戰(zhàn)勝美國智力問答節(jié)目《危險邊緣》的兩名冠軍選手,引起極大轟動。從某種程度上說,沃森已經可以和人類實現自如語音交流,這離不開其背后強大的計算性能。據介紹,IBM耗費數年才研制出沃森,沃森擁有10組Power 750服務器,運行l(wèi)inux操作系統(tǒng),具有15TB內存,2880個處理器,每秒可進行80萬億次運算,而其體積有10個冰箱大小。
圖 IBM沃森參加美國《危險邊緣》智力問答節(jié)目現場
雖然要實現像沃森這樣的自如地人機交互還挑戰(zhàn)重重,但這并沒有阻止語音技術在特定環(huán)境特定領域的應用,尤其是像車載、移動終端這樣的嵌入式設備中,語音技術已經得到了消費者的認可。
語音交互在車載設備和移動終端中發(fā)展迅猛
Strategy Analytics的統(tǒng)計表明,2012年,中國原始設備制造商(OEM)所提供的具備語音人機接口的信息娛樂和車載信息通信系統(tǒng)(telematics)的出貨量達到300萬臺,并預期在2018年達到2000萬臺。在北美和歐洲市場,帶語音交互功能的車載設備應用已很普及。福特SYNC系統(tǒng),即專為手機和數字媒體播放器配備的福特車載多媒體通信娛樂系統(tǒng),是目前車載系統(tǒng)中采用語音交互技術的成功的案例,已經廣泛應用在福特多個系列汽車中。搭載SYNC系統(tǒng)后,配合汽車中控臺上的顯示屏,可通過語音控制、兼容并操控便攜式通信/娛樂設備等方式,讓駕駛者在開車過程中更輕松,便捷地實現諸如語音撥號、語音播出短信內容、語音控制音樂播放等功能。
圖 駕駛者雙手無須離開方向盤,即可操控SYNC系統(tǒng)(福特福克斯中文SYNC系統(tǒng))
汽車之外,移動互聯(lián)網終端大概是目前最熱衷采用語音交互的另一類產品,自從蘋果率先在其iPhone 4中推出智能語音助理應用Siri后,Google公司也在其安卓智能手機操作系統(tǒng)中推出了Google Now智能語音搜索及問答服務,微軟公司也將語音技術應用于其Windows Phone。現在,幾乎每一家手機廠商都試圖將語音技術融于其移動產品、應用和服務中。這其中最主要的一個原因就是這類終端設備外型小巧,觸摸輸入很不方便,這種情況下,語音交互就變成了一種非常必要的人機溝通的補充方式。這一點,筆者深有感觸,自從使用安卓手機后,筆者一度不再發(fā)短信(太麻煩),現在,安裝了一個訊飛語音輸入法后,又開始和朋友們短信交流了,語音輸入真是又方便又快捷。
圖 訊飛語音輸入法手機界面
語音交互需要強大的軟硬件技術支持
雖然語音技術給我們帶來了極大的樂趣和幫助,但要實現真正流暢自然的語音交互還需要強大的軟硬件技術協(xié)作。語音技術牽涉到語音合成、語音識別、語音評測、自然語言理解等多個方面,而語言的復雜性、多樣性都為語音技術的應用帶來多種挑戰(zhàn)。Nuance、科大訊飛、微軟、IBM、Google都在投入力量研發(fā)語音新技術。其中,作為中文語音技術的領導者,科大訊飛已占有中文語音技術市場70%以上市場份額,其訊飛語音云合作伙伴已經超過了10000家,訊飛輸入法也是深入人心。Nuance的語音識別平臺在行業(yè)內也得到廣泛應用,前面提到的福特SYNC系統(tǒng)、蘋果Siri都采用了Nuance的技術。前不久,微軟宣布研發(fā)出一種新型語音識別技術,這項名為“深度神經網絡”的技術,能夠像人類的大腦一樣處理語言行為,據稱該技術比目前的語音識別技術快2倍。
有了好的語音軟件和算法,還必須要高性能的硬件來支持。相信,隨著語音技術的發(fā)展和硬件性能的提高,自然語音將為下一代人機交互帶來新的變革。