今年3月份,谷歌DeepMind開發(fā)的人工智能系統(tǒng)AlphaGo圍棋戰(zhàn)勝世界冠軍李世石,占據(jù)了各大科技媒體的頭條,當(dāng)時可謂是風(fēng)光無限,
谷歌人工智能部門DeepMind正與牛津大學(xué)研究人員合作,希望開發(fā)出全球最先進(jìn)的“讀唇”軟件,可能比人類的“讀唇”能力還要出色。
為實現(xiàn)這一目標(biāo),研究人員選取了數(shù)千個小時的BBC電視短片,上傳到一個神經(jīng)網(wǎng)絡(luò)上,對其“讀唇”軟件進(jìn)行訓(xùn)練,即根據(jù)主播嘴部運動來識別其播報內(nèi)容。
結(jié)果,這款“讀唇”軟件的唇讀準(zhǔn)確率高達(dá)46.8%。相比之下,基于同樣的測試內(nèi)容,人類唇讀的準(zhǔn)確率只有12.4%。
這項研究基于牛津大學(xué)之前的一款人工智能“讀唇”系統(tǒng)“LipNet”。LipNet能將視頻中人物的嘴部運動與其臺詞進(jìn)行匹配,準(zhǔn)確率高達(dá)93.4%。當(dāng)然,該準(zhǔn)確率主要基于一些相對簡單的句子。
DeepMind這款“讀唇”軟件名為“看、聽、分析與拼寫”(Watch, Listen, Attend, and Spell),與LipNet不同的是,DeepMind的軟件致力于更難的長句。
為此,谷歌神經(jīng)網(wǎng)絡(luò)觀看了來自BBC的約5000個小時的流行電視節(jié)目,包括《晚間新聞》和《提問時間》和《今日世界》等,共包含了11萬個不同的句子,1.75萬個不同的單詞。相比之下,測試LipNet的句子只包含了51個不同的單詞。
谷歌對此表示:“這項研究的目的是識別人們談話時的短語和句子,有聲音或沒有聲音都能識別。與之前的相關(guān)研究不同,它們僅限于有限數(shù)量的單詞或短語,而我們的研究針對無限制的自然語言長句。”
DeepMind團隊認(rèn)為,他們新開發(fā)的這款軟件除了能幫助聽力損傷人群,還支持其他一系列應(yīng)用,包括注釋電影、利用唇部動作與Siri和Alexa等數(shù)字助理通信等。