繁中

Stability AI發布Stable Audio AudioSparx 1.0音樂模型

  • 高效製作長格式音頻:根據文本提示快速生成44.1GHz立體聲音樂和95秒的聲音。
  • 變長音頻輸出:實現對生成音頻內容和長度的精細控制,支持變長音頻輸出。
  • 立體聲音頻渲染:能夠渲染立體聲信號,提供豐富而深入的音頻體驗。
  • 推理時間快:在A100圖形處理器上僅需8秒即可生成95秒的立體聲音頻,表現出極高的計算效率。
  • 結構化音樂生成:與其他工具不同的是,該工具可以根據您的文本提示創建結構清晰的音樂,例如開始、中間發展和結束,使音樂聽起來更有趣。
  • 性能優於AudioLDM 2和MusicGen-檢查論文中的指標。

問題已解決:

它提高了長格式音頻生成的效率,克服了固定大小輸出的限制,並允許生成可變長度的音頻。
通過潛在擴散模型和時間調節,在保持計算效率的同時實現了對所生成的音頻的長度的精細控制。

論文: https://arxiv.org/abs/2402.04825
代碼: https://github.com/Stability-AI/stable-audio-tools
指標: https://github.com/Stability-AI/stable-audio-metrics
演示: https://stability-ai.github.io/stable-audio-demo/

視頻:

返回頂端