繁中

NVIDIA發布Fugatto,一款音樂世代機型

英偉達發布了音樂生成人工智慧模型:Fugatto。通過簡單的文本提示或音頻輸入,用戶可以創建新的聲音景觀或修改現有的聲音元素。例如,用戶可以使用文本提示創建音樂片段、調整語音口音和情緒、添加或刪除樂器,甚至生成他們以前從未聽過的獨特音效。

核心定位

  • 多模輸入:支持純文本提示,還可以連接現有音頻(例如歌曲片段或語音),引導他們生成新音頻或轉換原始音頻。
  • 跨任務能力:可以實現多種音頻任務,例如文本轉音頻(TTA)、文本轉語音(TTC)、歌曲合成(SVS),以及現有音頻的編輯、增強和拼接。
  • 自由組合指令:通過 合成藝術 通過其推理技術,用戶可以組合、插值或否定不同的文本提示(例如「法國口音+悲傷」),從而精細控制生成的結果。

創新亮點

  1. 應急能力
    該模型可以合成通常不會自然發生的聲音組合,例如「狗唱歌」和「薩克斯嚎叫」,展示了其創造力
  2. 大規模、多任務學習
    與語言領域的基本模型類似,Fugatto在龐大的音頻和文本對數據集上進行訓練,並具有意想不到的通才能力
  3. ComposableART推理技術
    多個指令可以在推理過程中靈活組合,而不是在訓練過程中固定,提高了生成的控制自由度

應用場景展望

  • 音樂製作:快速生成旋律和編曲;從現有作品中添加或刪除樂器;嘗試不同的風格。
  • 廣告/語言教學:使用各種口音和音調來合成語音;定製情感表達。
  • 遊戲音效設計:根據遊戲情節動態生成或轉換聲音素材。
  • 創造性發展:構思奇怪的聲音(例如「機器人的低頻脈衝+高音電子鳴叫」)來輔助藝術創作。

示例演示亮點

  • 考慮到「低沉的雷鳴般的低音脈衝與間歇性的高音數字啁啾相結合……」」,Fugatto可以產生工業風格的電子音效
  • 輸入現有歌曲剪輯並提示「添加鼓和合成器」,該操作將自動添加鼓和合成器元素。
  • 給定一個聲音並提示情緒變化(例如從「平靜」到「憤怒」),可以生成具有該情緒變化的聲音版本。
  • 混合提示「薩克斯廳+狗叫聲+電子音樂」,創造前所未有的聲音融合

技術組合結構

  • 文本編碼器:用於處理自由文本指令的ByT5語言模型
  • 音頻編碼器:基於Mel頻譜圖的Transformer編碼器,可以處理輸入音頻
  • 發生器:結合文本和音頻上下文輸出新音頻,使用ComposableART實現推理過程中的聯合控制

社區的聲音和挑戰

  • 🔹Reddit上的一位用戶說道:「Fugatto是一項技術突破,但示例的音質仍然顯得『低沉』,缺乏凹槽感。"
  • 🔹一些人認為它更像是「創意混搭混音」,而不是真正人類創造的替代品。
  • 🔹總體而言,目前版本定位研究原型還不是成熟的商業產品。

📝摘要

福加托是令人興奮的 通用音頻基礎模型,能夠理解自由文本指令並生成或轉換多種音頻類型。其創意、靈活的特點和組合能力使其在音樂製作、文本轉語音、創意設計等領域具有非常廣闊的潛力。但現階段仍處於實驗階段,真實音質和創意準確性仍有進一步打磨和提高的空間。

消息來自:https://fugatto.github.io/
輸油管:

返回頂端