M2 UGen：多模式音樂理解和生成模型

由騰訊和新加坡國立大學開發的M2UGen可以理解各種音樂，包括風格，演奏的樂器，表達的情感等，並進行音樂問答。

它還可以從文本、圖像、視頻和音頻生成各種音樂，還可以理解生成的音樂並根據文本描述編輯音樂。

M2 UGen的主要功能：

M2 UGen使用多種編碼器，包括用於音樂理解的MERT、用於圖像理解的ViT和用於視頻理解的ViViT，以及作為音樂生成模型（音樂解碼器）的MusicGen/AudioLDM 2模型。

此外，該型號還結合了適配器和LLaMA 2型號。

1.多模式輸入處理：M2 UGen能夠處理各種類型的輸入，包括文本、圖像、視頻和音頻。

它使用特定的編碼器來理解不同的輸入模式。例如，MERT模型用於處理音樂輸入，ViT模型用於處理圖像輸入，ViViT模型用於處理視頻輸入。

2.音樂理解：利用LLaMA 2模型，M2 UGen能夠理解音樂的各個方面，例如風格、樂器使用和情感表達。它能夠回答與音樂相關的問題，其中涉及對音樂內容的深入理解。

3.音樂生成：M2 UGen不僅可以理解音樂，還可以根據不同的輸入生成音樂。它探索了如何使用AudioLDM 2和MusicGen等模型來基於文本、圖像或視頻輸入生成音樂。

4.數據集生成和訓練：為了訓練M2 UGen，開發人員使用MU-LLaMA和MPT-7 B模型來生成大量多模式音樂配對數據集。這些數據集幫助M2 UGen學習如何從不同的輸入中提取信息並生成相應的音樂。