繁中

NVIDIA發布Fugatto，一款音樂世代機型

作者: / 23 6 月, 2025

英偉達發布了音樂生成人工智慧模型：Fugatto。通過簡單的文本提示或音頻輸入，用戶可以創建新的聲音景觀或修改現有的聲音元素。例如，用戶可以使用文本提示創建音樂片段、調整語音口音和情緒、添加或刪除樂器，甚至生成他們以前從未聽過的獨特音效。

核心定位

多模輸入：支持純文本提示，還可以連接現有音頻（例如歌曲片段或語音），引導他們生成新音頻或轉換原始音頻。
跨任務能力：可以實現多種音頻任務，例如文本轉音頻（TTA）、文本轉語音（TTC）、歌曲合成（SVS），以及現有音頻的編輯、增強和拼接。
自由組合指令：通過 合成藝術 通過其推理技術，用戶可以組合、插值或否定不同的文本提示（例如「法國口音+悲傷」），從而精細控制生成的結果。

創新亮點

應急能力
該模型可以合成通常不會自然發生的聲音組合，例如「狗唱歌」和「薩克斯嚎叫」，展示了其創造力
大規模、多任務學習
與語言領域的基本模型類似，Fugatto在龐大的音頻和文本對數據集上進行訓練，並具有意想不到的通才能力
ComposableART推理技術
多個指令可以在推理過程中靈活組合，而不是在訓練過程中固定，提高了生成的控制自由度

應用場景展望

音樂製作：快速生成旋律和編曲;從現有作品中添加或刪除樂器;嘗試不同的風格。
廣告/語言教學：使用各種口音和音調來合成語音;定製情感表達。
遊戲音效設計：根據遊戲情節動態生成或轉換聲音素材。
創造性發展：構思奇怪的聲音（例如「機器人的低頻脈衝+高音電子鳴叫」）來輔助藝術創作。

示例演示亮點

考慮到「低沉的雷鳴般的低音脈衝與間歇性的高音數字啁啾相結合……」」，Fugatto可以產生工業風格的電子音效
輸入現有歌曲剪輯並提示「添加鼓和合成器」，該操作將自動添加鼓和合成器元素。
給定一個聲音並提示情緒變化（例如從「平靜」到「憤怒」），可以生成具有該情緒變化的聲音版本。
混合提示「薩克斯廳+狗叫聲+電子音樂」，創造前所未有的聲音融合

技術組合結構

文本編碼器：用於處理自由文本指令的ByT5語言模型
音頻編碼器：基於Mel頻譜圖的Transformer編碼器，可以處理輸入音頻
發生器：結合文本和音頻上下文輸出新音頻，使用ComposableART實現推理過程中的聯合控制

社區的聲音和挑戰

🔹Reddit上的一位用戶說道：「Fugatto是一項技術突破，但示例的音質仍然顯得『低沉』，缺乏凹槽感。"
🔹一些人認為它更像是「創意混搭混音」，而不是真正人類創造的替代品。
🔹總體而言，目前版本定位研究原型還不是成熟的商業產品。

📝摘要

福加托是令人興奮的 通用音頻基礎模型，能夠理解自由文本指令並生成或轉換多種音頻類型。其創意、靈活的特點和組合能力使其在音樂製作、文本轉語音、創意設計等領域具有非常廣闊的潛力。但現階段仍處於實驗階段，真實音質和創意準確性仍有進一步打磨和提高的空間。

消息來自：https://fugatto.github.io/
輸油管：