微軟新開(kāi)發(fā)一種基于AI的文本轉(zhuǎn)語(yǔ)音技術(shù),越來(lái)越逼近人類(lèi)音色
微軟新開(kāi)發(fā)一種基于AI的文本轉(zhuǎn)語(yǔ)音技術(shù),越來(lái)越逼近人類(lèi)音色
從文本到語(yǔ)音轉(zhuǎn)換技術(shù)并不算是什么新鮮事物,不過(guò)目前這項(xiàng)技術(shù)還存在很多不完善的部分。而現(xiàn)在它遇到最大的困難就是,技術(shù)的進(jìn)一步迭代和突破遭遇瓶頸。這意味著,如果您希望通過(guò)文本到語(yǔ)音來(lái)模擬真實(shí)的人類(lèi)對(duì)話,那么這可能是一項(xiàng)非常困難的任務(wù)。
然而,在這個(gè)領(lǐng)域人類(lèi)從來(lái)沒(méi)有放棄探索,甚至已經(jīng)付出了相當(dāng)多的努力,最近,微軟方面?zhèn)鞒鱿ⅲ麄兯坪踉谶@個(gè)技術(shù)領(lǐng)域取得了一些小小的突破。這次微軟做出的模型在實(shí)際運(yùn)用中可能進(jìn)一步簡(jiǎn)化了轉(zhuǎn)換過(guò)程,即使是普通人也能快速上手使用這項(xiàng)功能。這款A(yù)I轉(zhuǎn)換軟件是由中國(guó)研究人員開(kāi)發(fā)的,基于200個(gè)語(yǔ)音樣本,他們能夠創(chuàng)造出聽(tīng)起來(lái)更加真實(shí)的語(yǔ)音。
技術(shù)突破的關(guān)鍵因素是“Transformers”,“Transformers”是一種深度神經(jīng)網(wǎng)絡(luò),旨在模仿我們大腦中的神經(jīng)元。通過(guò)使用轉(zhuǎn)換器,它可以幫助它更有效地處理信息。到目前為止,從結(jié)果來(lái)看,新模型在單詞可懂度方面的得分為99.84%,盡管有報(bào)道稱(chēng)它聽(tīng)起來(lái)仍然有點(diǎn)機(jī)械。如果想親自體驗(yàn)一下你可以搜索GitHub上發(fā)布的樣本去試聽(tīng)。
我們不得不承認(rèn),目前的效果聽(tīng)起來(lái)還是相當(dāng)真實(shí)的,水平基本達(dá)到了谷歌的雙重人工智能技術(shù)。雖然這些技術(shù)進(jìn)步是受歡迎的,但我們也必須關(guān)注人工智能如果造假能力太強(qiáng),我們也要警惕和擔(dān)心它知否可能被濫用來(lái)傳播錯(cuò)誤信息。