Meta鴯鶓

專門設計用於生成高度美觀的圖像的高級圖像生成模型。

鴯鶓是Meta AI的新型圖像生成模型，可以快速自由地生成高質量的真實圖像。該模型首先使用11億個圖像-文本對進行預訓練，然後使用一組精選的高質量圖像進行微調，以進一步增強生成圖像的視覺吸引力。

最終，鴯鶓模型在視覺吸引力方面表現出色，優於其他高級圖像生成模型。

鴯鶓特徵：

1.美觀與功能的結合：一般來說，預訓練的圖像生成模型在生成高度美觀的圖像方面提出了挑戰。鴯鶓通過後來的審美對齊解決了這個問題。
2.高效的質量調整：令人驚訝的是，只有幾千張精選的高質量圖像就能顯著提高製作質量。這意味著不需要大量的數據和計算資源。
3.廣泛的應用場景：文本生成圖像的應用場景非常廣泛，包括但不限於藝術創作、廣告設計、遊戲開發等。

技術詳情：

Emu基於語言驅動模型（LDM），這是一種深度學習網絡，能夠理解文本輸入並基於該輸入生成圖像。

1.預培訓和微調：鴯鶓使用11億個圖像-文本對進行預訓練，然後使用數千個選定的高質量圖像進行微調。這些數據經過預處理，以便模型可以更好地學習如何從文本生成圖像。
2.質量優化：基礎模型訓練完成後，進行了一系列微調操作。這包括使用數百到數千個特定圖像進行質量調整，以增加生成圖像的視覺吸引力。
3.多模式培訓：EMU不僅僅是一個單一的模型，它還與其他類型的生成模型（如像素擴散模型和掩模生成Transformer模型）相結合，進一步提高生成質量。

績效評估：

與預先訓練的同類相比，鴯鶓的勝率為82.9%。與最先進的SDXLv1.0相比，鴯鶓的視覺吸引力分別為68.4%和71.3%。

鴯鶓表現良好，不僅在生成高質量圖像方面具有優勢，而且在多樣性和準確性方面表現也相當出色。這使得它成為一個非常有前途的工具，可以用於各種應用，從媒體和娛樂到科學研究和教育。

詳情：ai.meta.com/research/publications/emu-enhancing-image-generation-models-using-photogenic-needles-in-a-haystack/
論文：scontent-xsp1-1.xx.fbcdn.net/v/t39.2365-6/1