該模型理解提示詞中空間關係的能力得到了很大提高。
還有一個包含600萬張圖片的數據集,具有詳細的空間關係。模型和數據集都將開源。
詳情:
當前將文本描述轉換為圖像(T2 I)的技術面臨一個關鍵缺點,即它們通常無法準確地生成與文本提示中描述的空間關係匹配的圖像。
在本文中,我們全面研究了這一局限性,並開發了一些數據集和方法來實現行業領先水平。
首先,我們發現當前的圖形和文本數據集無法充分表達空間關係。為了解決這個問題,我們通過重新標記四個廣泛使用的圖像數據集中的600萬張圖像,創建了SPRIGHT--第一個專注於空間關係的大規模數據集。
經過三重評估和分析,我們發現SPRIGHT在捕捉空間關係方面顯著優於現有數據集。僅使用大約0.25%的SPRIGHT數據,我們在生成空間準確圖像方面實現了22%的提高,並且在DID(圖像質量評分)和CMMD(跨模式匹配評分)方面也得到了提高。
其次,我們還發現對包含大量對象的圖像進行訓練可以顯著提高圖像的空間一致性。特別是,在對不到500張圖片進行微調後,我們在T2 I綜合競賽平台(T2 I-CompBench)上的空間得分達到了0.2133,創下了新紀錄。
最後,通過一系列嚴格的實驗和測試,我們記錄了多項發現,這些發現可以更深入地了解影響圖像技術文本描述空間一致性的各種因素。
項目地址:https://spright-t2i.github.io
視頻: