機(jī)器學(xué)習(xí)怎樣提供翻譯服務(wù)
由于缺少從一種語言到另一種語言的很多翻譯示例——例如從英語到烏爾都語(Urdu),F(xiàn)acebook(臉書)公司已經(jīng)開始使用無監(jiān)督的機(jī)器學(xué)習(xí)來翻譯其平臺上的內(nèi)容。
Facebook人工智能研究院(Facebook AI Research,F(xiàn)AIR)巴黎實(shí)驗(yàn)室的主任Antoine Bordes表示:該方法由FAIR設(shè)計(jì),并由FAIR和Facebook的應(yīng)用機(jī)器學(xué)習(xí)部門合作用于其平臺。在實(shí)驗(yàn)中,該方法的表現(xiàn)與經(jīng)過10萬次翻譯訓(xùn)練的有監(jiān)督模型相當(dāng),并且在翻譯示例很少的情況下,其表現(xiàn)優(yōu)于Facebook的語言匹配系統(tǒng)。Bordes說:“當(dāng)你處理像英語到烏爾都語這樣的案例很少的翻譯任務(wù)時,我們系統(tǒng)的表現(xiàn)超過了有監(jiān)督的系統(tǒng)。因此,在沒有足夠數(shù)據(jù)的時候,訓(xùn)練無監(jiān)督系統(tǒng)比有監(jiān)督系統(tǒng)更好?!?/p>
由Facebook人工智能研究人員Guillaume Lample和Marc‘Aurelio Ranzato領(lǐng)導(dǎo)的這項(xiàng)工作的成果將于今年秋季在EMNLP 2018上公布。作為FAIR的一名老員工,Bordes表示這項(xiàng)研究是他見過的最好的翻譯系統(tǒng)。Bordes說:“我們現(xiàn)在可以去一個使用未知語言的星球—或者說,跟外星人交談—你可以嘗試對他們所說的內(nèi)容進(jìn)行合理的翻譯。你也可以從一本古老的手稿上找到尚未破譯的語言,你可以真正了解它的含義,因此這項(xiàng)工作真的在這些方面取得了突破,而這就是我如此興奮的原因。”
與FAIR的其他項(xiàng)目一樣,該AI系統(tǒng)將是開源的,可以在GitHub上下載。今年早些時候,F(xiàn)acebook將Translate做了開源,這是目前Facebook用來輔助翻譯的人工智能系統(tǒng)。Translate等系統(tǒng)需要大量的標(biāo)記數(shù)據(jù)。例如,完成從法語到英語的翻譯需要數(shù)百萬個樣本句子來創(chuàng)建一個能夠理解這兩種語言的系統(tǒng)。因此,在缺少翻譯示例時,翻譯工作是非常困難的。
當(dāng)前用于處理這種案例的人工智能系統(tǒng)結(jié)合了三個要素:逐字翻譯、語言模型和反向翻譯。逐字翻譯的訓(xùn)練原理為:根據(jù)一個句子中某個字的前面五個單詞和后面五個單詞來推測其上下文含義,然后對該單詞進(jìn)行預(yù)測。這個嵌入詞語的方法是在2017年秋天Lample和Ranzato共同撰寫的一篇論文中提出的。然后,使用大量數(shù)據(jù)(如書籍或其他書面文本)訓(xùn)練的語言模型被用于按照英語或?yàn)鯛柖颊Z使用者能夠理解的結(jié)構(gòu)來安排句子。最后,使用反向翻譯來改進(jìn)通過逐字翻譯和語言模型獲得的翻譯結(jié)果。這些方法并不新鮮,但三者的結(jié)合的確是有效的。
Bordes稱:“使用這兩個系統(tǒng),并在兩種語言之間進(jìn)行雙向翻譯,我可以將它們進(jìn)行同時訓(xùn)練以獲得相互促進(jìn),所以真正核心思想是使用這些詞語(翻譯模型),利用該語言模型做第一次翻譯,然后用反向翻譯的方法嘗試進(jìn)行改進(jìn)?!?/p>
Facebook將在未來探索將這種人工智能系統(tǒng)用于其他形式的翻譯,但需要更多的數(shù)據(jù),并需要與專業(yè)翻譯人員合作來驗(yàn)證結(jié)果。