繁中

Meta鴯鶓

專門設計用於生成高度美觀的圖像的高級圖像生成模型。

鴯鶓是Meta AI的新型圖像生成模型,可以快速自由地生成高質量的真實圖像。該模型首先使用11億個圖像-文本對進行預訓練,然後使用一組精選的高質量圖像進行微調,以進一步增強生成圖像的視覺吸引力。

最終,鴯鶓模型在視覺吸引力方面表現出色,優於其他高級圖像生成模型。

鴯鶓特徵:

1.美觀與功能的結合:一般來說,預訓練的圖像生成模型在生成高度美觀的圖像方面提出了挑戰。鴯鶓通過後來的審美對齊解決了這個問題。
2.高效的質量調整:令人驚訝的是,只有幾千張精選的高質量圖像就能顯著提高製作質量。這意味著不需要大量的數據和計算資源。
3.廣泛的應用場景:文本生成圖像的應用場景非常廣泛,包括但不限於藝術創作、廣告設計、遊戲開發等。

技術詳情:

Emu基於語言驅動模型(LDM),這是一種深度學習網絡,能夠理解文本輸入並基於該輸入生成圖像。

1.預培訓和微調:鴯鶓使用11億個圖像-文本對進行預訓練,然後使用數千個選定的高質量圖像進行微調。這些數據經過預處理,以便模型可以更好地學習如何從文本生成圖像。
2.質量優化:基礎模型訓練完成後,進行了一系列微調操作。這包括使用數百到數千個特定圖像進行質量調整,以增加生成圖像的視覺吸引力。
3.多模式培訓:EMU不僅僅是一個單一的模型,它還與其他類型的生成模型(如像素擴散模型和掩模生成Transformer模型)相結合,進一步提高生成質量。

績效評估:

與預先訓練的同類相比,鴯鶓的勝率為82.9%。與最先進的SDXLv1.0相比,鴯鶓的視覺吸引力分別為68.4%和71.3%。

鴯鶓表現良好,不僅在生成高質量圖像方面具有優勢,而且在多樣性和準確性方面表現也相當出色。這使得它成為一個非常有前途的工具,可以用於各種應用,從媒體和娛樂到科學研究和教育。

詳情:ai.meta.com/research/publications/emu-enhancing-image-generation-models-using-photogenic-needles-in-a-haystack/
論文:scontent-xsp1-1.xx.fbcdn.net/v/t39.2365-6/1

返回頂端