當(dāng)前位置：首頁(yè) > 智能硬件 > 人工智能AI

谷歌AI推出端到端純語(yǔ)音翻譯技術(shù)，有望成為未來(lái)的“機(jī)器同傳”

時(shí)間：2020-06-04 20:12:01

關(guān)鍵字： AI

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀] 谷歌AI推出端到端純語(yǔ)音翻譯技術(shù)，有望成為未來(lái)的“機(jī)器同傳” 我們先來(lái)聽一下三段語(yǔ)音：三段語(yǔ)音說(shuō)的是同一句話：“你好，我是 Guillermo，你怎么樣？（How's

谷歌AI推出端到端純語(yǔ)音翻譯技術(shù)，有望成為未來(lái)的“機(jī)器同傳”

我們先來(lái)聽一下三段語(yǔ)音：

三段語(yǔ)音說(shuō)的是同一句話：“你好，我是 Guillermo，你怎么樣？（How's it going, hey, this is Guillermo. How are you?）”

只不過(guò)第一段是西班牙語(yǔ)原聲（Qué tal, eh, yo soy Guillermo, ?Cómo estás?），第二段是標(biāo)準(zhǔn)的人類英語(yǔ)翻譯，而第三段則是AI合成的英語(yǔ)翻譯，來(lái)自于谷歌 AI 最新的語(yǔ)音翻譯模型 Translatotron。

該模型是一個(gè)基于注意力機(jī)制（Attention）的端到端語(yǔ)音翻譯神經(jīng)網(wǎng)絡(luò)。它不同于傳統(tǒng)語(yǔ)音翻譯技術(shù)，在翻譯的過(guò)程中省略了中間步驟，完全不需要進(jìn)行語(yǔ)音轉(zhuǎn)文字和完成翻譯的文字轉(zhuǎn)語(yǔ)音，而是根據(jù)翻譯內(nèi)容，嘗試匹配不同語(yǔ)言的語(yǔ)音頻譜圖（speech spectrogram），直接完成語(yǔ)音之間的轉(zhuǎn)換。

換句話說(shuō)，我們剛才聽到的第一段西班牙語(yǔ)和第三段英語(yǔ)片段，AI在翻譯的過(guò)程中，沒有使用到任何語(yǔ)音轉(zhuǎn)文字的技術(shù)，也沒有使用西班牙語(yǔ)和英語(yǔ)的文字翻譯技術(shù)，只有純粹的語(yǔ)音轉(zhuǎn)換。

雖然從翻譯的準(zhǔn)確率來(lái)看，Translatotron 模型還比不過(guò)傳統(tǒng)翻譯技術(shù)，但這種端到端的聯(lián)合優(yōu)化思路確實(shí)打破了主流語(yǔ)音翻譯技術(shù)的基本原理，具有很強(qiáng)的啟發(fā)性和拓展性。

目前谷歌只使用了西班牙語(yǔ)和英語(yǔ)語(yǔ)音作為概念驗(yàn)證，研究成果以預(yù)印本的形式發(fā)表在 Arxiv 和谷歌 AI 博客上。

打破常規(guī)思路

不同語(yǔ)言之間的語(yǔ)音轉(zhuǎn)文字和翻譯，是近年來(lái)機(jī)器學(xué)習(xí)領(lǐng)域的熱門研究方向，尤其是語(yǔ)音到語(yǔ)音的直接翻譯。

通常來(lái)講，語(yǔ)音翻譯過(guò)程可以分解成三個(gè)步驟。

第一步是語(yǔ)音識(shí)別，就是將英文語(yǔ)音內(nèi)容識(shí)別出來(lái)，并且以文字的形式表達(dá)出來(lái)，比如聽到“How are you?”這句話，就寫出 How，are，you 三個(gè)單詞和問(wèn)號(hào)。

第二步是文字翻譯，就是將上一步拿到的文字翻譯成目標(biāo)語(yǔ)種，比如寫出“你好嗎？”這句話。

最后一步是語(yǔ)音合成，也就是將翻譯好的文本組合成一段語(yǔ)音，然后播放出來(lái)。

圖 | 不同模型從西班牙語(yǔ)到英語(yǔ)的語(yǔ)音翻譯對(duì)比

谷歌翻譯等當(dāng)下常見的語(yǔ)音翻譯軟件都遵循了這一思路，并且對(duì)每一步驟進(jìn)行了很多優(yōu)化，比如引入端到端模型（End-to-end model）。這是一種將三個(gè)步驟結(jié)合起來(lái)，比如建立語(yǔ)音信號(hào)到文字映射，進(jìn)而實(shí)現(xiàn)整體優(yōu)化的模式。

在谷歌研究人員看來(lái)，他們提出的 Translatotron，是之前很多端到端研究成果的進(jìn)一步延伸，可以直接拋棄文字翻譯這一中間步驟，成功在神經(jīng)網(wǎng)絡(luò)的幫助下，實(shí)現(xiàn)了不同語(yǔ)言語(yǔ)音片段的直接轉(zhuǎn)換。

他們使用的是一套序列到序列模型（Sequence-to-sequence model），即訓(xùn)練 AI 將有關(guān)聯(lián)的連續(xù)數(shù)據(jù)視為一段整體（英文句子），然后直接轉(zhuǎn)化為另一段不同的整體（中文句子）。

在 Translatotron 中，研究人員選擇了語(yǔ)音片段的頻譜圖作為序列，上面描述了語(yǔ)音頻率隨時(shí)間變化的熱圖。它們會(huì)作為輸入值進(jìn)入到神經(jīng)網(wǎng)絡(luò)中，隨后經(jīng)過(guò)8層堆疊雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（BLSTM）編碼器，頻譜與自動(dòng)語(yǔ)音識(shí)別特征結(jié)合，多頭注意力和頻譜解碼器等多個(gè)模塊，完成對(duì)語(yǔ)音頻譜特征的提取，轉(zhuǎn)換和生成等任務(wù)。

經(jīng)過(guò)上述一系列轉(zhuǎn)換后，西班牙語(yǔ)語(yǔ)音頻譜就變成了對(duì)應(yīng)的英語(yǔ)語(yǔ)音頻譜，最后可以通過(guò)聲碼器（vocoder）合成我們聽到的語(yǔ)音。如果需要的話，還可以使用額外預(yù)訓(xùn)練好的 Speaker 編碼器捕捉語(yǔ)音源的聲音特點(diǎn)，添加到合成語(yǔ)音當(dāng)中，讓兩者聽起來(lái)更加相似。

在訓(xùn)練過(guò)程中，Translatotron還使用了多任務(wù)學(xué)習(xí)技巧（mulTItask learning），引入了四個(gè)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)解碼器。

上圖的輔助識(shí)別任務(wù)區(qū)域（Auxiliary recogniTIon tasks）就是負(fù)責(zé)在生成目標(biāo)語(yǔ)種頻譜圖的同時(shí)，也順便學(xué)習(xí)一下如何預(yù)測(cè)語(yǔ)音的因素和文字內(nèi)容。只不過(guò)它們沒有被用來(lái)進(jìn)行推理，否則就不是純語(yǔ)音翻譯了。

為了測(cè)試翻譯質(zhì)量，研究人員使用了機(jī)器翻譯評(píng)估算法 BLEU，最好成績(jī)達(dá)到了基準(zhǔn)表現(xiàn)的76%。

他們認(rèn)為，這一成績(jī)雖然不及主流的傳統(tǒng)語(yǔ)音翻譯技術(shù)，但 Translatotron 作為一個(gè)概念驗(yàn)證，足以證明拋棄機(jī)器翻譯和文字轉(zhuǎn)換的思路行得通，而且可能還在還原音色等方面擁有更大的潛力。

下一步，谷歌團(tuán)隊(duì)將嘗試降低訓(xùn)練過(guò)程中的監(jiān)督水平，擴(kuò)大合成數(shù)據(jù)和多任務(wù)學(xué)習(xí)的規(guī)模，并且探索其他可以轉(zhuǎn)移的聲音元素，改善合成語(yǔ)音的質(zhì)量。

不得不說(shuō)，直接在不同語(yǔ)言之間轉(zhuǎn)換音頻的想法還是很有創(chuàng)意的，而且極富挑戰(zhàn)性，對(duì)特征提取質(zhì)量，語(yǔ)音頻譜繪制和噪聲抵抗能力提出了更高的要求，足以啟發(fā)其他團(tuán)隊(duì)，成為一個(gè)新的研究方向。

本站聲明：本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布，目的在于傳遞更多信息，并不代表本站贊同其觀點(diǎn)，本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請(qǐng)聯(lián)系該專欄作者，如若文章內(nèi)容侵犯您的權(quán)益，請(qǐng)及時(shí)聯(lián)系本站刪除。

換一批

阿維塔、賽力斯已入股！華為引望可能成“中國(guó)博世”

9月2日消息，不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司，隨著阿維塔和賽力斯的入局，華為引望愈發(fā)顯得引人矚目。

關(guān)鍵字：阿維塔塞力斯華為

[美通社全球TMT]

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變?cè)撇捎煤凸芾矸绞?/a>

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布，該公司與Amazon Web Services （AWS）簽訂了...

關(guān)鍵字： AWS AN BSP 數(shù)字化

[美通社全球TMT]

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場(chǎng)，使汽車開發(fā)時(shí)間和成本降低90%

倫敦2024年8月29日 /美通社/ -- 英國(guó)汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V，這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具，可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...

關(guān)鍵字：汽車人工智能智能驅(qū)動(dòng) BSP

[美通社全球TMT]

從容應(yīng)對(duì)未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

北京2024年8月28日 /美通社/ -- 越來(lái)越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行，同時(shí)企業(yè)卻面臨越來(lái)越多業(yè)務(wù)中斷的風(fēng)險(xiǎn)，如企業(yè)系統(tǒng)復(fù)雜性的增加，頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性，提升韌性，成...

關(guān)鍵字：亞馬遜解密控制平面 BSP

[通信先鋒]

中國(guó)游戲市場(chǎng)開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

8月30日消息，據(jù)媒體報(bào)道，騰訊和網(wǎng)易近期正在縮減他們對(duì)日本游戲市場(chǎng)的投資。

關(guān)鍵字：騰訊編碼器 CPU

[通信先鋒]

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

8月28日消息，今天上午，2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)開幕式在貴陽(yáng)舉行，華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。

關(guān)鍵字：華為 12nm EDA 半導(dǎo)體

[通信先鋒]

華為張平安：數(shù)字世界話語(yǔ)權(quán)最終由生態(tài)繁榮決定！

8月28日消息，在2024中國(guó)國(guó)際大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上，華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱，數(shù)字世界的話語(yǔ)權(quán)最終是由生態(tài)的繁榮決定的。

關(guān)鍵字：華為 12nm 手機(jī) 衛(wèi)星通信

[美通社全球TMT]

中國(guó)通信服務(wù)公布2024年中期業(yè)績(jī)

要點(diǎn)：有效應(yīng)對(duì)環(huán)境變化，經(jīng)營(yíng)業(yè)績(jī)穩(wěn)中有升落實(shí)提質(zhì)增效舉措，毛利潤(rùn)率延續(xù)升勢(shì) 戰(zhàn)略布局成效顯著，戰(zhàn)新業(yè)務(wù)引領(lǐng)增長(zhǎng) 以科技創(chuàng)新為引領(lǐng)，提升企業(yè)核心競(jìng)爭(zhēng)力堅(jiān)持高質(zhì)量發(fā)展策略，塑強(qiáng)核心競(jìng)爭(zhēng)優(yōu)勢(shì)...

關(guān)鍵字：通信 BSP 電信運(yùn)營(yíng)商數(shù)字經(jīng)濟(jì)

[美通社全球TMT]

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

北京2024年8月27日 /美通社/ -- 8月21日，由中央廣播電視總臺(tái)與中國(guó)電影電視技術(shù)學(xué)會(huì)聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會(huì)上宣布正式成立。活動(dòng)現(xiàn)場(chǎng) NVI技術(shù)創(chuàng)新聯(lián)...

關(guān)鍵字： VI 傳輸協(xié)議音頻 BSP

[美通社全球TMT]

軟通動(dòng)力與長(zhǎng)三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長(zhǎng)三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會(huì)上，軟通動(dòng)力信息技術(shù)（集團(tuán)）股份有限公司（以下簡(jiǎn)稱"軟通動(dòng)力"）與長(zhǎng)三角投資（上海）有限...

關(guān)鍵字： BSP 信息技術(shù)