誘人的Siri 開(kāi)啟人機(jī)交互的大門(mén)
Siri,蘋(píng)果新發(fā)布的手機(jī)iPhone 4S的語(yǔ)音助手功能,正在成為大家熱議的話(huà)題,而我們預(yù)言,它極有可能開(kāi)啟個(gè)人電腦類(lèi)產(chǎn)品應(yīng)用的新篇章,人機(jī)交互將真正進(jìn)入大家的生活。
智慧誘人的Siri帶來(lái)人機(jī)交互熱
一場(chǎng)并不那么精彩的發(fā)布會(huì),蘋(píng)果的iPhone 4S發(fā)布了。大家對(duì)iPhone 4S在硬件端缺乏創(chuàng)新很失望。不過(guò),敏銳的我們發(fā)現(xiàn)了Siri這一功能,這個(gè)基于語(yǔ)音交互的助手功能將成為iPhone 4S的最大賣(mài)點(diǎn)。
事情的發(fā)展正如我們預(yù)料的那樣,現(xiàn)在,Siri語(yǔ)音助手已經(jīng)成為全球熱議的話(huà)題,iPhone 4S熱賣(mài),而且用戶(hù)發(fā)現(xiàn)Siri能夠幫助我們通過(guò)語(yǔ)音輕松完成很多事情,比如:閱讀并回復(fù)短信、介紹餐廳(位置、名稱(chēng))、詢(xún)問(wèn)天氣、設(shè)置鬧鐘、查看日程等。
不過(guò)大家更著迷于她的神奇:買(mǎi)iPhone 4S后用戶(hù)都沖著Siri那優(yōu)美的女聲提出各種稀奇古怪的問(wèn)題來(lái)看她的反應(yīng)。這些問(wèn)題甚至包括了“你穿的什么衣服”,“生命的意義是什么”,甚至有不少人沖著她嚷嚷“我愛(ài)你”。讓人驚嘆的是,Siri完全理解這些問(wèn)題,且懂得如何婉轉(zhuǎn)而詼諧地回答,且知道如何在法律范疇內(nèi)引導(dǎo)大家的行為。針對(duì)前面兩個(gè)問(wèn)題,她的回答是“你怎么總是要問(wèn)我這個(gè)呢”;“生命:一種原則或力量,被認(rèn)為是獨(dú)特動(dòng)態(tài)存在的基礎(chǔ)。我想我也算是一種生命”。而對(duì)于“我愛(ài)你”之類(lèi)的告白,Siri則會(huì)說(shuō)“我希望你不會(huì)對(duì)別的手機(jī)也這樣說(shuō)”。她甚至能夠?qū)B續(xù)性的問(wèn)題給出符合人類(lèi)邏輯的不同回答。有人連續(xù)向Siri“求婚”三次,第一次Siri回答:“聽(tīng)起來(lái)很甜蜜,不過(guò)我還有什么可以幫你的嗎?”第二次回答:“讓我們只做朋友,好嗎?”第三次Siri干脆攤牌了:“我的用戶(hù)協(xié)議沒(méi)有包括和你結(jié)婚,我很抱歉。”
很顯然,Siri是智慧的,智慧得令人驚嘆、智慧得誘惑,智慧得令人愛(ài)。難怪在iPhone 4S熱銷(xiāo)缺貨的同時(shí),黑客都在致力于將智慧且誘人的Siri移植到其他iOS設(shè)備上。視頻網(wǎng)站上,關(guān)于Siri問(wèn)答的視頻也被瘋狂點(diǎn)擊。而大量開(kāi)發(fā)類(lèi)似軟件的廠商,也在近期跳出來(lái)表示他們的軟件也很好……
一場(chǎng)人機(jī)交互熱正在到來(lái)!
Siri現(xiàn)在成了最熱門(mén)的應(yīng)用,事實(shí)上,它正在引領(lǐng)人機(jī)交互的大潮
Siri背后的技術(shù)
Siri的神奇和強(qiáng)大,是如何實(shí)現(xiàn)的?有人說(shuō)她的背后是“印度云”,用戶(hù)在語(yǔ)音提問(wèn)時(shí),iPhone 4S就偷偷接通了遠(yuǎn)在印度的CALL CENTER(呼叫中心),那邊的印度工程師瘋狂地打字回答,iPhone 4S端再轉(zhuǎn)換為語(yǔ)音回給用戶(hù)——當(dāng)然,這只是個(gè)玩笑。
Siri的背后,其實(shí)是眾多技術(shù)的結(jié)合,總體來(lái)看是兩大類(lèi):人工智能和云計(jì)算。如果非要綜合描述成一個(gè)概念,則是“計(jì)算技術(shù)”,而這一計(jì)算技術(shù)又是很多類(lèi)技術(shù)整合而成的。下面,我們來(lái)對(duì)Siri進(jìn)行一個(gè)大概的技術(shù)分拆(目的是讓大家理解分類(lèi)的技術(shù),Siri的每個(gè)部分不一定就是采用的下文所舉例的技術(shù))。
首先,在前端(面向用戶(hù))的,是用戶(hù)交互技術(shù)(從表象來(lái)看,也就是我們平時(shí)所說(shuō)的人機(jī)交互),主要是語(yǔ)音識(shí)別及語(yǔ)音合成技術(shù)。語(yǔ)音識(shí)別技術(shù)把用戶(hù)的口語(yǔ)轉(zhuǎn)化成文字,其中需要強(qiáng)大的語(yǔ)音知識(shí)庫(kù),因此需要用到云計(jì)算。而語(yǔ)音合成則是把返回的文字結(jié)果重新轉(zhuǎn)化成語(yǔ)音輸出,這一步理論上本地就能完成。
其次是后臺(tái)技術(shù),這才是重角兒。這些技術(shù)的目的就是處理用戶(hù)的請(qǐng)求,并返回最匹配的結(jié)果。因?yàn)檎?qǐng)求類(lèi)型超多,且千奇百怪,要處理好可不簡(jiǎn)單。基本的結(jié)構(gòu)可能是分析用戶(hù)的輸入(已轉(zhuǎn)化為文本),根據(jù)輸入類(lèi)型,分別采用對(duì)應(yīng)的后臺(tái)進(jìn)行處理。這些對(duì)應(yīng)的后臺(tái)包括:①以Google為代表的網(wǎng)頁(yè)搜索技術(shù);②以Wolfram Alpha為代表的知識(shí)搜索技術(shù)(或知識(shí)計(jì)算技術(shù),百度框計(jì)算與之有些類(lèi)似);③以維基百科為代表的知識(shí)庫(kù)技術(shù)(包括其他百科,如電影百科等);④以Yelp(可以理解為國(guó)外的大眾點(diǎn)評(píng)網(wǎng))為代表的問(wèn)答以及推薦技術(shù)。當(dāng)然,未來(lái)也許還會(huì)有更多的后臺(tái)技術(shù)。
例如,當(dāng)你詢(xún)問(wèn)某個(gè)酒店在哪里時(shí),Google的網(wǎng)頁(yè)搜索和地圖搜索就會(huì)派上用場(chǎng);當(dāng)你要詢(xún)問(wèn)NVIDIA是什么時(shí),維基百科的信息就會(huì)被直接調(diào)用;而你要了解附近哪些餐館各自有什么特色時(shí),谷歌和Yelp就會(huì)同時(shí)起作用。
總體來(lái)說(shuō),Siri不是某一種獨(dú)立的技術(shù),而是將若干現(xiàn)有技術(shù)進(jìn)行了整合。這些技術(shù)并非革命性的,但當(dāng)它們整合后,在用戶(hù)面前就展現(xiàn)出了神奇的一面。
語(yǔ)音人機(jī)交互的技術(shù)模型
為什么是手機(jī)
如果你比較喜歡研究各種計(jì)算技術(shù),以上技術(shù)你應(yīng)該不會(huì)陌生。說(shuō)白了,很多人都或多或少地用過(guò)以上提到的技術(shù),只是因?yàn)橥A粼趹?yīng)用層面,沒(méi)有把它們技術(shù)化罷了。無(wú)論是語(yǔ)音識(shí)別、語(yǔ)音合成,還是各種后臺(tái)計(jì)算技術(shù),其實(shí)PC上都有。那么,為什么它在智能手機(jī)上一炮而紅?
整合,是一個(gè)原因,也是很重要的原因。在目前的科技公司中,對(duì)技術(shù)分類(lèi)得非常詳盡,每個(gè)公司都在某一個(gè)領(lǐng)域鉆研得非常深,但想到要把它們整合起來(lái)的公司并不多。Siri做到了,喬布斯看到了,并把它收購(gòu)了,專(zhuān)為自己所用(再次贊一下已逝去的喬布斯的眼力)。
另外,“給出回應(yīng)”也是重要原因。其實(shí)語(yǔ)音識(shí)別并進(jìn)行相應(yīng)的動(dòng)作,這一點(diǎn)很多廠商都在做,也有很多產(chǎn)品。例如桌面Windows系統(tǒng)和Windows Phone系統(tǒng)上就有語(yǔ)音控制和語(yǔ)音搜索功能。但是它缺乏智能的語(yǔ)言反饋,更沒(méi)有想到要把這種反饋合成為誘人的人聲來(lái)回應(yīng)用戶(hù)——這兩點(diǎn)中,語(yǔ)音合成技術(shù)不算難,但很多廠商都沒(méi)想到。
最后,也是最關(guān)鍵的原因:智能手機(jī)是隨身攜帶的。它的硬件雖然已經(jīng)“PC化”,比較強(qiáng)大,但輸入依舊是個(gè)麻煩事兒,而基于語(yǔ)音的交互恰好是最理想的解決方案。另外,智能手機(jī)還有很多PC不具備的特性:例如地理位置定位、聯(lián)系人列表、人們總是通過(guò)它在移動(dòng)中解決問(wèn)題。這些,也都為語(yǔ)音交互提供了更多更豐富的功能點(diǎn)。這一切因素的整合,促成了Siri,也促成了她在智能手機(jī)上的一炮而紅。
不只是手機(jī):從PC中來(lái)到PC中去
有一點(diǎn)是不言而喻的,隨著Siri的出現(xiàn),下一波智能手機(jī)的應(yīng)用熱潮肯定是人機(jī)交互應(yīng)用了?!稌?huì)說(shuō)話(huà)的湯姆貓》這類(lèi)變聲軟件將迅速淪為小兒科(其實(shí)它本來(lái)也是小兒科)。會(huì)有越來(lái)越多的“Siri”涌現(xiàn)。
實(shí)際上正如前文所述,目前黑客們已經(jīng)在忙著將Siri移植到其他iOS系統(tǒng)移動(dòng)設(shè)備上,例如iPad,但目前能夠完成移植,Siri卻還無(wú)法連接服務(wù)器(云端),也就是說(shuō)基本不可用。但我們相信,這種應(yīng)用一旦出現(xiàn),就會(huì)有大量的開(kāi)發(fā)商蜂擁而至。在Android上、在Windows Phone上,也會(huì)涌現(xiàn)類(lèi)似的應(yīng)用。事實(shí)上我們有理由相信,具備人機(jī)交互功能的語(yǔ)音助手將成為未來(lái)智能手機(jī)能否成功占領(lǐng)市場(chǎng)的關(guān)鍵點(diǎn)之一。
不過(guò),我們認(rèn)為Siri開(kāi)啟的,不僅僅是手機(jī)應(yīng)用的新篇章,而是整個(gè)PC應(yīng)用的新篇章(其實(shí),智能手機(jī)也算是PC——個(gè)人電腦的一種形態(tài))。未來(lái),在平板上,在上網(wǎng)本上,在Ultrabook上,在傳統(tǒng)筆記本上,在一體機(jī)和臺(tái)式機(jī)上,甚至在工作站上,基于語(yǔ)音的人機(jī)交互系統(tǒng)將大放異彩。
這樣說(shuō)是有根據(jù)的,首先,在微軟全新的手機(jī)操作系統(tǒng)Windows Phone上,已經(jīng)有了語(yǔ)音控制。而Windows 8和Windows Phone 8的統(tǒng)一,也會(huì)讓語(yǔ)音控制更加普及。而且,在PC端長(zhǎng)期以老大自居的微軟肯定不會(huì)坐視蘋(píng)果借Siri霸占手機(jī)市場(chǎng),肯定會(huì)對(duì)現(xiàn)有的語(yǔ)音控制進(jìn)行改良做到人機(jī)交互。在未來(lái)的Win8和Windows Phone 8上,語(yǔ)音人機(jī)交互是完全有可能出現(xiàn)的。
而且,前面說(shuō)了,Siri整合的技術(shù),實(shí)際上是各種現(xiàn)有的,基于PC開(kāi)發(fā)的技術(shù),每個(gè)獨(dú)立的技術(shù)都在PC端有獨(dú)立的應(yīng)用。Google的搜索大家都異常熟悉了;維基百科、百度百科用過(guò)的人也不在少數(shù);大眾點(diǎn)評(píng)這類(lèi)網(wǎng)站也是非常熱的。語(yǔ)音控制電腦操作也已相當(dāng)成熟(見(jiàn)注解1),只是由于缺乏足夠的吸引力和宣傳,用者寥寥罷了。只要做好自然語(yǔ)言的識(shí)別和理解,加上云端的自然語(yǔ)言知識(shí)搜索系統(tǒng),以及語(yǔ)音合成回饋技術(shù),這些來(lái)自于PC,經(jīng)整合后在智能手機(jī)上大放異彩的技術(shù),完全可以再回到PC中,在性能強(qiáng)大得多的PC上扮演更具誘惑力的個(gè)人語(yǔ)音助手,甚至是“商務(wù)助手”、“辦公助手”、“專(zhuān)業(yè)設(shè)計(jì)助手”等各種角色。我們甚至可以期待數(shù)字家電成型后,通過(guò)語(yǔ)音助手控制電腦,進(jìn)一步完成對(duì)所有家電的控制。想遠(yuǎn)點(diǎn),或許幾年后,我會(huì)對(duì)著電腦說(shuō):請(qǐng)幫我關(guān)閉家里的電視,另外繳納上兩個(gè)月的電費(fèi),同時(shí)預(yù)訂下午2點(diǎn)使用會(huì)議室,另外在下午5點(diǎn)30分給家里打電話(huà)告訴家人我加班不回家吃飯,并在最近的必勝客幫我訂一塊肉香滿(mǎn)溢披薩上門(mén)”。我的電腦就會(huì)聯(lián)合手機(jī),完成我所有的安排,并自動(dòng)詢(xún)問(wèn)我披薩送上門(mén)的時(shí)間,還自動(dòng)將繳費(fèi)發(fā)票信息提交到我的電腦屏幕上……
一場(chǎng)關(guān)于個(gè)人電腦應(yīng)用革命的大門(mén)正在被開(kāi)啟!這一切令我們激動(dòng)!我們無(wú)比期待!
Windows上其實(shí)也有非常成熟的語(yǔ)音控制系統(tǒng),不過(guò)智能的人機(jī)交流是它匱乏的,但未來(lái)前景會(huì)很驚人
注解1:
目前PC上的語(yǔ)音控制操作已相當(dāng)成熟,包括中文在內(nèi)的語(yǔ)音識(shí)別也已很不錯(cuò)。Win7自帶語(yǔ)音控制(叫作“語(yǔ)音識(shí)別”),你只要在稍微安靜點(diǎn)的地方經(jīng)過(guò)20分鐘左右的“適應(yīng)訓(xùn)練”,基本上Win7上的絕大部分操作都可以用語(yǔ)音進(jìn)行控制,包括專(zhuān)業(yè)軟件操作。
其實(shí)很多操控通過(guò)語(yǔ)音的確非??旖荩热缙綍r(shí)我們要開(kāi)啟計(jì)算器、寫(xiě)字板、記事本等小軟件是很麻煩的,而通過(guò)語(yǔ)音控制,你只需說(shuō)出“開(kāi)啟XXX”即可打開(kāi)對(duì)應(yīng)軟件,且可進(jìn)行語(yǔ)音輸入。
關(guān)于語(yǔ)音人機(jī)交互的熱點(diǎn)問(wèn)題解答
1、Siri是專(zhuān)門(mén)給蘋(píng)果iPhone 4S準(zhǔn)備的嗎?Android系統(tǒng)上有嗎?
Siri本來(lái)是App Store上的一個(gè)應(yīng)用,不過(guò)前期被喬布斯相中了,買(mǎi)了下來(lái),現(xiàn)在專(zhuān)屬于蘋(píng)果的iPhone 4S。我們相信未來(lái)會(huì)植入新款iPhone甚至iPad中,但Android系統(tǒng)上……恐怕有點(diǎn)難了。
2、Siri能夠聽(tīng)得懂并會(huì)說(shuō)漢語(yǔ)嗎?
這小妞目前只會(huì)英語(yǔ)、法語(yǔ)和德語(yǔ),不過(guò)蘋(píng)果公司已經(jīng)承諾,會(huì)在2012年推出支持漢語(yǔ)、日語(yǔ)、韓語(yǔ)、意大利語(yǔ)及西班牙語(yǔ)的Siri。
3、還有哪些操作系統(tǒng)或者說(shuō)產(chǎn)品上有語(yǔ)音助手這種好玩的東東呢?
你的電腦的Windows上就有,Win7上的“語(yǔ)音識(shí)別”就比較好用。另外Windows Phone 7上也有語(yǔ)音控制功能,比如你可以詢(xún)問(wèn)手機(jī)某個(gè)地方怎么走。不過(guò),這些應(yīng)用都不會(huì)給你幽默有趣的語(yǔ)音反饋,說(shuō)簡(jiǎn)單點(diǎn)就是:只會(huì)照著你說(shuō)的做,不會(huì)智能地和你聊天。
Andorid系統(tǒng)上有兩個(gè)軟件倒是值得關(guān)注:Vlingo和Speaktoit。總體來(lái)說(shuō),Vlingo和PC上的語(yǔ)音識(shí)別相差不多,只能算是執(zhí)行命令的“機(jī)器”,而Speaktoit則非常智能,比較類(lèi)似于Siri,能夠和你智能對(duì)話(huà),只是沒(méi)有Siri那么“幽默”。
WP7上的語(yǔ)音控制基本就是“我說(shuō)你照做”,不過(guò)相信微軟對(duì)Siri不會(huì)視而不見(jiàn)的,肯定會(huì)進(jìn)行改進(jìn)
Android系統(tǒng)上的Speaktoit和Siri有一拼
4、那么智慧的Siri和Speaktoit是不是能回答我的所有問(wèn)題呢?
她們足以讓你感到吃驚了,但并非能夠給你所有的問(wèn)題予你想要的回答。當(dāng)然,我這么說(shuō)了也沒(méi)用,你肯定還是會(huì)問(wèn)她們各種問(wèn)題的^__^。自己試試看吧。