語音助理搭配人工智能將是不可或缺的環(huán)節(jié)
在車聯(lián)網(wǎng)時(shí)代來臨的前夕,我們車上已經(jīng)有 GPS、行車記錄儀、藍(lán)牙喇叭等設(shè)備,營(yíng)造更便利的駕駛環(huán)境。不過,在上路前免不了的一連串手動(dòng)輸入或設(shè)定,卻又不是那么方便了,更遑論開車到一半時(shí)要進(jìn)行變更。即使是趁著等紅燈的空檔,只要還得伸手去屏幕上按來按去,就多少增加了行車風(fēng)險(xiǎn)。于是,為了駕駛?cè)伺c乘客更舒適安全的的乘車體驗(yàn),語音助理搭配人工智能將是不可或缺的環(huán)節(jié)。
然而,這樣一來我們就得面對(duì)另一個(gè)難題,便是這些車用語音智能產(chǎn)品,如何能提供優(yōu)異的語音辨識(shí)品質(zhì),提高辨識(shí)率,讓機(jī)器準(zhǔn)確接收我們的指令呢?想像一下,你載著滿車朋友出游,在國道上高速行駛,大家快意談笑,夾雜引擎運(yùn)轉(zhuǎn)與風(fēng)噪聲,可能還正好放著一首 Lana Del Rey 的《Burning Desire》,使你不自覺腳踩油門。這時(shí)車內(nèi)環(huán)境噪音絕對(duì)高于 70dB(分貝),而且還夾雜不同頻率的聲音。因此,讓產(chǎn)品偵測(cè)說話的人并接收正確指令,是相當(dāng)令人頭痛的問題。
環(huán)境噪音對(duì)語音通訊品質(zhì)的影響
在語音辨識(shí)的流程中,可分為五道程序:包含語音輸入及語音訊號(hào)處理、語音特征擷取、以聲學(xué)模型(acousTIc model)進(jìn)行語音單元辨識(shí)、以語言模型(language model)來組織語音單元、解碼及輸出等。
目前語音助理的市場(chǎng)上,Microsoft 耕耘最久,Apple、Google 相繼而起,以完善智能手機(jī)體驗(yàn)為目標(biāo);近期火熱的 Amazon Echo,其語音助理 Alexa 則一開始就以獨(dú)立的聲控家用平臺(tái)為定位,建立自身生態(tài)系。以上這幾家語音助理開發(fā)商,基本上已經(jīng)掌握后面四道程序。不過,一旦來到車用領(lǐng)域,產(chǎn)品設(shè)備開發(fā)商則勢(shì)必要在語音輸入及語音訊號(hào)處理的程序上,投注更多心力。
車用語音智能產(chǎn)品在車內(nèi)環(huán)境中,與使用者的距離不出 0.5~1 米之內(nèi)。一般汽車引擎發(fā)動(dòng)后且車窗緊閉的情況下,車內(nèi)噪音約 60dB 左右。假設(shè)使用者發(fā)出約 89dB 的聲音(即一般說話音量的平均值),此時(shí)嘴邊的訊噪比為 29dB,足以維持良好的通訊品質(zhì)。但你不會(huì)想要每次下指令還得把臉貼到汽車面板前,因此 0.5~1 米是產(chǎn)品接收語音訊號(hào)的合理距離。然而,當(dāng)說話聲音傳到 0.5 米時(shí)會(huì)衰減至 65dB,此時(shí)訊噪比只剩 5dB;說話聲音到 1 米時(shí)則只剩 60dB,與噪音的音量相當(dāng),更不用說上述提到高速行駛的環(huán)境下,噪音都比發(fā)出指令的人聲還要大。
符合標(biāo)準(zhǔn)的車用通訊品質(zhì)
當(dāng)面臨車聯(lián)網(wǎng)逐漸完善、語音應(yīng)用普及化,越來越多車廠要求內(nèi)建 Android Auto、Apple Carplay 等智能助理,而這些都需要按照 ITU-T P.1110/P.1100 語音標(biāo)準(zhǔn)來設(shè)計(jì),對(duì)代工組裝或設(shè)計(jì)加工的車用電子系統(tǒng)廠來說,等于是踏入未知的領(lǐng)域,只能以現(xiàn)有產(chǎn)品不斷偵錯(cuò)找出問題,相當(dāng)耗費(fèi)時(shí)間。因此像是貝爾聲學(xué)這種第三方語音測(cè)試實(shí)驗(yàn)室,就會(huì)從麥克風(fēng)模組、連接線材等部分測(cè)試,首先幫廠商判斷選料是否正確。
貝爾聲學(xué)曾針對(duì)一款舊的車用麥克風(fēng)模組進(jìn)行測(cè)試,該模組配兩顆 ECM 電容式類比麥克風(fēng),一顆為全指向性,主要用來收環(huán)境音,作為背景噪音消除演算法的用途;另一顆為單指向性,收音方向指向駕駛,用來接收駕駛的語音訊號(hào)。依據(jù) ITU-T P.1110 測(cè)試方式,得出了以下數(shù)據(jù):
從結(jié)果可以看到,麥克風(fēng)模組離標(biāo)準(zhǔn)建議值太遠(yuǎn),感度差了約 30dB,因此訊號(hào)必須放大 30dB,才能滿足標(biāo)準(zhǔn)建議值。然而,這意味著雜訊也會(huì)跟著放大,造成語音品質(zhì)跟辨識(shí)率低落。代表這款麥克風(fēng)一開始根本就不該出現(xiàn)在車用語音智能產(chǎn)品上。透過貝爾聲學(xué)的協(xié)助,能讓廠商快速找到癥結(jié)點(diǎn),避免進(jìn)行過多無意義的測(cè)試。
由于車子所處的環(huán)境噪音會(huì)隨著車速、路段、路況、空調(diào)、乘客及音響等各種因素不斷改變,而背景降噪演算法不易解決時(shí)時(shí)變動(dòng)且突發(fā)性的聲音,所以車用語音智能產(chǎn)品可以著重在一些細(xì)節(jié),幫助提升通訊品質(zhì)。例如采用兩顆以上的麥克風(fēng)陣列,以進(jìn)行較佳的背景降噪演算法;采用訊噪比較高的麥克風(fēng),最好是 SNR 58dB 以上。其次,把麥克風(fēng)置于離駕駛嘴巴最近的位置,如方向盤附近;但同時(shí)又要盡量縮短麥克風(fēng)線材至主機(jī)的距離,且加強(qiáng)線材隔絕性,以減少外來的雜訊。最后,則是加上回音消除(Echo cancellaTIon)、背景降噪(Background noise reducTIon)以及麥克風(fēng)自動(dòng)增益(Mic auto gain control)等三種功能,幫助提升語音辨識(shí)率。