OpenAI讓AI神作曲!莫扎特Lady Gaga玩混搭
OpenAI讓AI神作曲!莫扎特Lady Gaga玩混搭
導(dǎo)語(yǔ):OpenAI公司開發(fā)了一種音樂AI系統(tǒng)MuseNet,能用十種樂器生成歌曲,而且能融合不同種曲風(fēng)。
智東西4月26日消息,剛在《Dota 2》中大虐人類的Open AI,又開始跨界踏足音樂圈啦!今天,它在一篇博文中詳細(xì)介紹了人工智能系統(tǒng)MuseNet,它用十種的樂器生成了四分鐘的樂曲,而且曲子風(fēng)格多樣,能聽出鄉(xiāng)村風(fēng)、和莫扎特、披頭士樂隊(duì)的曲風(fēng)。
MuseNet沒有像人們理解的那樣對(duì)樂曲編程,而是通過學(xué)習(xí)預(yù)測(cè)數(shù)百個(gè)成千上萬(wàn)的MIDI文件中的tokens來發(fā)現(xiàn)和聲、節(jié)奏和樂曲風(fēng)格的模式。
關(guān)于MuseNet的更多信息可參見OpenAI的博文:
一、MuseNet如何生成樂曲?
MuseNet沒有像人們理解的那樣對(duì)樂曲編程,而是通過學(xué)習(xí)預(yù)測(cè)數(shù)百個(gè)成千上萬(wàn)的MIDI文件中的tokens來發(fā)現(xiàn)和聲、節(jié)奏和樂曲風(fēng)格的模式。tokens有兩種類型,一種作用于作曲家,一種作用于樂器。
Payne解釋說,這些token類型可以更好地控制MuseNet所生成的樣本種類。在訓(xùn)練過程中,token被添加到每個(gè)音樂樣本之前,以便MuseNet學(xué)習(xí)如何使用它們來做出音符預(yù)測(cè)。
MuseNet接受了來自各種不同來源的MIDI音樂標(biāo)準(zhǔn)格式的樣本訓(xùn)練,包括ClassicalArchives、BitMidi和開源Maestro語(yǔ)料庫(kù)。
MuseNet重新計(jì)算和優(yōu)化了稀疏Transformer,訓(xùn)練了24個(gè)attention head的72層網(wǎng)絡(luò),內(nèi)含共有4096個(gè)token,讓生成音樂的時(shí)長(zhǎng)可達(dá)到4分鐘。
Transformer在順序數(shù)據(jù)上進(jìn)行訓(xùn)練:技術(shù)人員給定一組音符,要求MuseNet預(yù)測(cè)接下來的音符。他們嘗試了幾種不同的方法將MIDI文件編碼為適合此任務(wù)的token。首先,采用了弦樂方法,將每次聽到的音符組合視為單獨(dú)的“和弦”,并為每個(gè)和弦分配一個(gè)token。其次,他們嘗試通過僅關(guān)注音符的開頭來縮小音樂模式,并嘗試使用字節(jié)對(duì)編碼方案進(jìn)一步壓縮。
技術(shù)人員還嘗試了兩種不同方法標(biāo)記時(shí)間推移:第一,根據(jù)音頻節(jié)奏縮放token(以便token代表一個(gè)音樂節(jié)拍或節(jié)拍的一小部分);第二,標(biāo)記以秒為單位的絕對(duì)時(shí)間token。
最終,他們采用了一種結(jié)合了表現(xiàn)力和簡(jiǎn)潔性的編碼:將音高,音量和樂器信息組合成一個(gè)token。
在訓(xùn)練中,他們選擇:
首先,調(diào)高、調(diào)低音調(diào)來調(diào)換樣本;
然后,調(diào)高或調(diào)低各種樣本的整體音量;
最后,稍微減慢或加快音頻片段的速度。
二、MuseNet可以換大不同類型的曲風(fēng)
正如OpenAI的技術(shù)人員ChrisTIne Payne在一篇博客文章中所解釋的那樣,MuseNet與所有的深度神經(jīng)網(wǎng)絡(luò)一樣,包含了在相互連接的層中排列的神經(jīng)元(數(shù)學(xué)函數(shù),松散地模仿生物神經(jīng)元)里,從輸入數(shù)據(jù)中傳輸“信號(hào)”,并緩慢調(diào)整每個(gè)連接的突觸。
但獨(dú)特的是,MuseNet擁有注意力機(jī)制。注意力機(jī)制從本質(zhì)上講和人類的選擇性視覺注意力機(jī)制類似,核心目標(biāo)是從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。所以在MuseNet模型中,每個(gè)輸出元素都連接每個(gè)輸入元素,它們之間的突觸是動(dòng)態(tài)計(jì)算的。
MuseNet使用的是與GPT-2相同的通用無(wú)監(jiān)督技術(shù)。GPT-2是OpenAI推出的一個(gè)大規(guī)模的無(wú)監(jiān)督語(yǔ)言模型,它具有來自800萬(wàn)個(gè)網(wǎng)頁(yè)的15億數(shù)據(jù)集,其訓(xùn)練目標(biāo)就是基于前面給定的文本,從而預(yù)測(cè)接下來的文字。
MuseNet有不同的模式:簡(jiǎn)單模式,用戶可以從“作曲家”或“風(fēng)格”中選擇未經(jīng)過調(diào)整的樣本,然后開始生成。高級(jí)模式,它可以讓用戶直接與模型交互,創(chuàng)建出一個(gè)全新的作品。
在生成樂曲時(shí),用戶可以調(diào)整模型用選定的風(fēng)格創(chuàng)建樣本,這種風(fēng)格可以從拉赫瑪尼諾夫鋼琴、樂隊(duì)Journey的鋼琴開始,也可以從貝司、吉他和鼓開始。
Payne 說:“由于MuseNet包含了許多不同的風(fēng)格,我們可以用新穎的方式對(duì)它們進(jìn)行融合,例如,給模型肖邦夜曲的前六個(gè)音符,要求它生成流行樂曲風(fēng)格的鋼琴、鼓、貝司和吉他曲, 它也能做到?!?/p>
Payne也指出,MuseNet并不完美,因?yàn)樗峭ㄟ^從所有可能的音符和樂器中計(jì)算概率來生成每個(gè)音符,偶爾它會(huì)做出不和諧的選擇??梢灶A(yù)見的是,如果曲風(fēng)和樂器不搭,比如肖邦的低音和鼓,它很難將兩者融合在一起。
MuseNet對(duì)作曲家的理解以及他們?nèi)绾魏惋L(fēng)格相聯(lián)系
三、全新Demo,讓你自選音樂風(fēng)格
MuseNet的博文上還提供一個(gè)Demo,供感興趣者試用。
首先,選擇你更感興趣的音樂風(fēng)格(從上到下依次是:肖邦、莫扎特、拉赫曼尼諾夫、Lady Gaga、鄉(xiāng)村音樂和迪士尼音樂)。
接下來,選擇開始的旋律,這里Demo為試用者提供了6種選項(xiàng)。
如果選擇NONE,AI就會(huì)看心情隨便給你來個(gè)開頭,如果選擇了其他的歌(莫扎特的《土耳其進(jìn)行曲》,貝多芬的《第五交響曲》,Lady Gaga的《Poker Face》,貝多芬的《致愛麗絲》,阿黛爾的《Someone Like You》),AI就會(huì)按照你所選的歌的風(fēng)格續(xù)寫音樂。
最后,點(diǎn)擊下面的 ,讓AI生成一段音樂。
黑色背景上紫色橫條的圖樣是曲譜,箭頭左邊的一塊譜子是你所選擇的開始的旋律,圖上每一根小橫條代表一個(gè)音符,點(diǎn)擊 后右邊出現(xiàn)的一長(zhǎng)串紫色就是AI生成的音樂,點(diǎn)擊PLAY FROM START就可以開始播放啦~
如果你喜歡AI的創(chuàng)作,可以點(diǎn)擊DOWNLOAD下載保存;如果想重玩一次,就選擇RESET。當(dāng)然啦,你還可以把AI的作品分享到推特。
如果你想聽現(xiàn)場(chǎng)freestyle,還可以點(diǎn)擊曲譜上方的SHOW ADVANCED SETTINGS,有更多的音樂風(fēng)格、開頭音樂和樂器供你選擇,通過選擇TOKENS來生成不同長(zhǎng)度的音樂,然后,你就可以享受AI的現(xiàn)場(chǎng)版了。
不過,這個(gè)Demo暫時(shí)還不完美,假使你選擇鋼琴、吉他或鼓的音色,生成的音樂可能聽起來音色都差不多。
OpenAI表示,這一Demo會(huì)展示到5月12號(hào),之后會(huì)有一個(gè)迭代的版本。
結(jié)語(yǔ):音樂AI正在加速發(fā)展
MuseNet生成的樂曲中不僅包含了多種樂器,而且能把不同的曲風(fēng)融合在一起,帶給人不一樣的體驗(yàn)。
OpenAI并非唯一一家踏足音樂AI領(lǐng)域的公司。今年3月,谷歌發(fā)布了一種名為Google Doodle的算法,可以讓用戶模仿作曲家巴赫的風(fēng)格創(chuàng)作旋律。去年年底,Google Brain的項(xiàng)目Magenta推出了一種算法Music Transformer,它能識(shí)別歌曲的重復(fù)旋律。可以看出,音樂AI正在快速發(fā)展,沒準(zhǔn)將來某家音樂AI會(huì)成為歌壇小天王呢!