目前的語(yǔ)音識(shí)別和NLP技術(shù)仍然不夠成熟
掃描二維碼
隨時(shí)隨地手機(jī)看文章
(文章來源:中國(guó)安防展覽網(wǎng))
智能語(yǔ)音語(yǔ)義包含語(yǔ)音合成、語(yǔ)音識(shí)別和自然語(yǔ)言處理(NLP)叁項(xiàng)主要技術(shù)。
語(yǔ)音合成技術(shù)發(fā)展早,應(yīng)用已較為普遍,除了合成音仍偏機(jī)械之外,基本不存在太大技術(shù)問題;語(yǔ)音識(shí)別在2012年卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用之后,準(zhǔn)確率大幅提升,已經(jīng)在C端、B端得到了廣泛應(yīng)用,但效果和體驗(yàn)還不夠理想;NLP技術(shù)雖然在搜索引擎中早有應(yīng)用,但在人機(jī)交互領(lǐng)域仍屬于淺層處理。
在生物學(xué)中,有個(gè)術(shù)語(yǔ)叫做“魯棒性”,是指系統(tǒng)在擾動(dòng)或不確定的情況下,仍能保持它的特征行為。這一問題在語(yǔ)音識(shí)別領(lǐng)域也存在。
語(yǔ)音識(shí)別整個(gè)過程包含語(yǔ)音信號(hào)處理、靜音切除、聲學(xué)特征提取、模式匹配等多個(gè)環(huán)節(jié)。由于語(yǔ)音信號(hào)的多樣性和復(fù)雜性,系統(tǒng)只能在一定限制條件下才能獲得滿意效果。在真實(shí)使用場(chǎng)景中,考慮到遠(yuǎn)場(chǎng)、方言、噪音、斷句等問題,準(zhǔn)確率會(huì)大打折扣。目前業(yè)內(nèi)普遍宣稱的97%識(shí)別準(zhǔn)確率,更多的是人工測(cè)評(píng)結(jié)果,只在安靜室內(nèi)的進(jìn)場(chǎng)識(shí)別中才能實(shí)現(xiàn)。
要解決語(yǔ)音識(shí)別魯棒性問題,需要在技術(shù)和產(chǎn)品兩方面進(jìn)行優(yōu)化。一方面,在語(yǔ)音增強(qiáng)、麥克風(fēng)陣列以及說話人分離等多項(xiàng)技術(shù)領(lǐng)域持續(xù)投入,并結(jié)合后端語(yǔ)義,促進(jìn)對(duì)上下文的理解,從而提升識(shí)別效果;另一方面,需要從產(chǎn)品設(shè)計(jì)上進(jìn)行優(yōu)化,比如通過進(jìn)一步交互,使語(yǔ)音識(shí)別變得更為準(zhǔn)確。
NLP技術(shù)大致包含叁個(gè)層面:詞法分析、句法分析、語(yǔ)義分析,叁者之間既遞進(jìn)又相互包含。
詞義消歧是NLP技術(shù)的大瓶頸。機(jī)器在切詞、標(biāo)注詞性、并識(shí)別完后,需要對(duì)各個(gè)詞語(yǔ)進(jìn)行理解。由于語(yǔ)言中往往一詞多義,人在理解時(shí)會(huì)基于已有知識(shí)儲(chǔ)備和上下文環(huán)境,但機(jī)器很難做到。雖然系統(tǒng)會(huì)對(duì)句子做句法分析,可以在一定程度上幫助機(jī)器理解詞義和語(yǔ)義,但實(shí)際情況并不理想。
目前,機(jī)器對(duì)句子的理解還只能做到語(yǔ)義角色標(biāo)注層面,即標(biāo)出句中的句子成分和主被動(dòng)關(guān)系等,它屬于比較成熟的淺層語(yǔ)義分析技術(shù)。未來要讓機(jī)器更好地理解人類語(yǔ)言,并實(shí)現(xiàn)自然交互,還是需要依賴深度學(xué)習(xí)技術(shù),通過大規(guī)模的數(shù)據(jù)訓(xùn)練,讓機(jī)器不斷學(xué)習(xí)。當(dāng)然,在實(shí)際應(yīng)用領(lǐng)域中,也可以通過產(chǎn)品設(shè)計(jì)來減少較為模煳的問答內(nèi)容,以提升用戶體驗(yàn)。
由于人工智能技術(shù)對(duì)數(shù)據(jù)依賴性極高,因此,這一領(lǐng)域的技術(shù)進(jìn)步和產(chǎn)業(yè)化推進(jìn)是一種協(xié)同關(guān)系——通過工程化的方法提升技術(shù)效果和體驗(yàn),從而促進(jìn)產(chǎn)業(yè)化應(yīng)用,再根據(jù)實(shí)際應(yīng)用中的數(shù)據(jù)和反饋,反過來推動(dòng)技術(shù)實(shí)現(xiàn)突破。