幾句話就能寫歌 AI讓音樂創(chuàng)作更簡單

2023-08-31 09:46:48 來源：人民郵電報

【資料圖】

零門檻進行繪畫創(chuàng)作，文心一格讓每個人都能成為“藝術(shù)家”；通過簡單問答即可嘗試編程，ChatGPT讓程序員的編碼工作不再神秘……生成式人工智能熱潮正在席卷整個科技行業(yè)。根據(jù)文字描述可以生成音樂嗎？當(dāng)然可以。Meta近日開源的Audio-Craft就能做到，旨在幫助研究人員和開發(fā)人員訓(xùn)練自己的模型，從而推進該領(lǐng)域的發(fā)展。

Meta表示，這款人工智能工具以其擁有和特別授權(quán)的音樂作為訓(xùn)練數(shù)據(jù)，可以把用戶的文本描述轉(zhuǎn)化為音樂。AudioCraft融合了AudioGen、MusicGen和EnCodec3種模型。其中，預(yù)先訓(xùn)練好的AudioGen模型可以生成環(huán)境聲音和音效，比如狗叫聲、汽車鳴笛聲或木地板上的腳步聲，結(jié)合用兩萬個小時授權(quán)音樂訓(xùn)練而成的MusicGen以及Encodec編碼器／量化器／解碼器，三者配合下可幫助用戶高效生成高質(zhì)量的音樂。

值得一提的是，AudioCraft使用En-Codec從原始信號中學(xué)習(xí)并標記音頻，通過這一步驟建立音樂樣本的“詞匯表”（音頻標記），然后將其輸入到自回歸語言模型中。該模型利用標記內(nèi)容的結(jié)構(gòu)生成新的模型，從而更好捕獲數(shù)據(jù)中的長距離依賴關(guān)系，這對于音樂生成至關(guān)重要。最后，新模型根據(jù)文本描述生成新的標記，這些標記反饋給En-Codec用于合成聲音和音樂。

生成任何類型的高質(zhì)量音頻都需要對復(fù)雜信號在不同尺度上進行建模?？梢哉f，音樂是一種極具挑戰(zhàn)性的音頻類型，因為其由不同跨度的音程、多種樂器的音色等復(fù)合而成。

如前所述，AudioCraft是開源的，開發(fā)人員可以更加方便地獲取代碼和文檔等資源，并且能夠在開源社區(qū)中與其他開發(fā)人員交流、協(xié)作和分享經(jīng)驗，Meta希望借此進一步推動音樂生成領(lǐng)域的創(chuàng)新發(fā)展。Meta認為，MusicGen或?qū)⒊蔀橐环N新的樂器，就像最初的音樂合成器一樣。

但是，Hacker News評論員指出，雖然AudioCraft大部分都是開源的，其模型權(quán)重所使用的CC-BY-NC許可協(xié)議則要求對原作品進行非商業(yè)用途的分享與再創(chuàng)作，對商業(yè)使用存在限制，并不符合完全開源的條件。相比之下，完全開源的協(xié)議如GPL（General Public License）則沒有限制作品的商業(yè)使用。

具體來說，非商業(yè)使用條款破壞了開源倡議組織（Open Source Initiative）對開源的定義中的第六點，這可能是由于Meta使用了其擁有授權(quán)的音樂源去計算模型權(quán)重。

標簽：

天天狠天天天天透在线_欧美日韩中文视频_99re精彩视频_任你躁在线精品视频m3u8_欧美日本一区亚洲欧美一区

幾句話就能寫歌 AI讓音樂創(chuàng)作更簡單