開啟今天的文章之前,先上一段視頻,這段視頻展現(xiàn)了生活中最“貼心”的語音交互。
這條視頻里展現(xiàn)的就是我們日常生活中常見的語音交互,與圖像識別一樣,語音交互是人工智能的一個分支。
在人工智能異?;馃岬慕裉?,從 Siri 到小度,從小冰到小娜,語音交互正悄無聲息的融入我們的生活之中。
其實,語音交互系統(tǒng)發(fā)展的歷史并不短,早在 1952 年,貝爾實驗室就開發(fā)了能夠識別阿拉伯數(shù)字的系統(tǒng) Audrey。
1962 年,IBM 發(fā)明了一臺可以用語音進行簡單數(shù)學計算的機器 Shoebox。
2019 年全球語音交互市場規(guī)模達到 13 億美元,預計 2025 年語音交互市場規(guī)模將達到 69 億美元,目前已廣泛應用到智能家居、車載語音、智能客服等行業(yè)和場景。
對于發(fā)展前景如此感人的語音交互有哪些優(yōu)劣勢呢,也就是我們?yōu)槭裁催@么熱衷研發(fā)語音交互?
優(yōu)勢
信息傳遞效率高:
相比于傳統(tǒng)的鍵盤輸入,語音輸入方式在速度及準確率方面更具優(yōu)勢,利用語音輸入普通話時,速度是傳統(tǒng)輸入方式的 3.21 倍。
空間便捷性:與觸控相比,語音交互可以人機相距 3~5 米進行交互,增加了交互的便捷性。
支持組合指令:在需要支持多意圖同時傳遞的場景下,語音交互可以一次性下達多條指令,然后分別執(zhí)行,比如你可以對著手機說:“播放周杰倫的《說好不哭》并且是免費的?!?/p>
使用門檻低
對非文字使用場景友好:語音交互為老人、孩子,以及一些不方便使用文字的人群提供了便利,也在一些不方便使用文字或者手勢的場景下,比如:駕駛、玩游戲,為使用者提供了便利。
學習成本低:語音交互與我們平時說話一樣,不需要特意學習,大大降低了學習的成本。
傳遞聲學信息
聲紋識人:通過聲紋可以進行身份判斷,并且可以在下達指令的同時進行身份判斷,效率更高。同時聲音還可以判斷性別、年齡層、情緒等信息。
聲音傳遞情感:聲音交互可以傳遞情感、語氣,因此在有情感訴求的場景下,語音交互是一個很好的選擇。
但是,有利就有弊,語音交互同時也存在著一些弊端。
弊端
信息接收效率低
當信息量大、內容較長時,語音交互的效率就會降低,同時,語音交互是線性的,也就是別人說話時,必須都聽完才能理解其中的意思,這也大大降低了語音交互的信息接收效率。
嘈雜環(huán)境下語音識別精度降低
語音識別需要清晰的識別出人聲,嘈雜環(huán)境使得人聲的提取變得非常困難,尤其是針對遠場語音交互,噪音的問題更加突出。
例如遠場安靜環(huán)境下語音識別準確率能達到 95%,但是在嘈雜環(huán)境下僅能達到 80% 左右。
雖然存在著這些弊端,但是語音交互還是在不斷完善中實現(xiàn)著自我突破。
來源:中國大數(shù)據(jù)