【資料圖】
零門檻進行繪畫創(chuàng)作,文心一格讓每個人都能成為“藝術(shù)家”;通過簡單問答即可嘗試編程,ChatGPT讓程序員的編碼工作不再神秘……生成式人工智能熱潮正在席卷整個科技行業(yè)。根據(jù)文字描述可以生成音樂嗎?當(dāng)然可以。Meta近日開源的Audio-Craft就能做到,旨在幫助研究人員和開發(fā)人員訓(xùn)練自己的模型,從而推進該領(lǐng)域的發(fā)展。
Meta表示,這款人工智能工具以其擁有和特別授權(quán)的音樂作為訓(xùn)練數(shù)據(jù),可以把用戶的文本描述轉(zhuǎn)化為音樂。AudioCraft融合了AudioGen、MusicGen和EnCodec3種模型。其中,預(yù)先訓(xùn)練好的AudioGen模型可以生成環(huán)境聲音和音效,比如狗叫聲、汽車鳴笛聲或木地板上的腳步聲,結(jié)合用兩萬個小時授權(quán)音樂訓(xùn)練而成的MusicGen以及Encodec編碼器/量化器/解碼器,三者配合下可幫助用戶高效生成高質(zhì)量的音樂。
值得一提的是,AudioCraft使用En-Codec從原始信號中學(xué)習(xí)并標記音頻,通過這一步驟建立音樂樣本的“詞匯表”(音頻標記),然后將其輸入到自回歸語言模型中。該模型利用標記內(nèi)容的結(jié)構(gòu)生成新的模型,從而更好捕獲數(shù)據(jù)中的長距離依賴關(guān)系,這對于音樂生成至關(guān)重要。最后,新模型根據(jù)文本描述生成新的標記,這些標記反饋給En-Codec用于合成聲音和音樂。
生成任何類型的高質(zhì)量音頻都需要對復(fù)雜信號在不同尺度上進行建模??梢哉f,音樂是一種極具挑戰(zhàn)性的音頻類型,因為其由不同跨度的音程、多種樂器的音色等復(fù)合而成。
如前所述,AudioCraft是開源的,開發(fā)人員可以更加方便地獲取代碼和文檔等資源,并且能夠在開源社區(qū)中與其他開發(fā)人員交流、協(xié)作和分享經(jīng)驗,Meta希望借此進一步推動音樂生成領(lǐng)域的創(chuàng)新發(fā)展。Meta認為,MusicGen或?qū)⒊蔀橐环N新的樂器,就像最初的音樂合成器一樣。
但是,Hacker News評論員指出,雖然AudioCraft大部分都是開源的,其模型權(quán)重所使用的CC-BY-NC許可協(xié)議則要求對原作品進行非商業(yè)用途的分享與再創(chuàng)作,對商業(yè)使用存在限制,并不符合完全開源的條件。相比之下,完全開源的協(xié)議如GPL(General Public License)則沒有限制作品的商業(yè)使用。
具體來說,非商業(yè)使用條款破壞了開源倡議組織(Open Source Initiative)對開源的定義中的第六點,這可能是由于Meta使用了其擁有授權(quán)的音樂源去計算模型權(quán)重。
關(guān)于我們| 聯(lián)系方式| 版權(quán)聲明| 供稿服務(wù)| 友情鏈接
咕嚕網(wǎng) www.ulq4xuwux.cn 版權(quán)所有,未經(jīng)書面授權(quán)禁止使用
Copyright©2008-2023 By All Rights Reserved 皖I(lǐng)CP備2022009963號-10
聯(lián)系我們: 39 60 29 14 2@qq.com