VAR首次允許GPT風格的AR模型在圖像生成方面超越Diffusion transformers。
與此同時,它顯示了與大型語言模型中觀察到的規則相似的規則。
在ImageNet 256 x256基準測試中,VAR將DID從18.65顯著提高到1.80,將IS從80.4顯著提高到356.4,將推理速度提高了20倍。
詳細居間:
視覺自回歸模型(VAR)是一種新的圖像生成範式,它將自回歸學習從粗到細重新定義為「下一尺度預測」或「下一解析度預測」,這與標準的格柵掃描「下一個令牌預測」不同。"
這種簡單直觀的方法使自回歸Transformer能夠快速學習視覺分布,並具有良好的泛化能力:
VAR首次允許GPT風格的AR模型在圖像生成方面超越擴散變形器。
在ImageNet 256 x256基準測試中,VAR將DID從18.65顯著提高到1.80,將IS從80.4顯著提高到356.4,將推理速度提高了20倍。
實證結果表明,VAR在圖像質量、推理速度、數據效率和可擴展性等多個方面優於擴散Transformer。
隨著VAR模型的擴展,它表現出與大語言模型中觀察到的相似的乘勢律縮放模式,線性相關係數接近-0.998,這有力地證明了這一點。
VAR進一步展示了圖像修復、外推和編輯等下游任務的零樣本概括能力。
這些結果表明VAR最初模擬了大型語言模型的兩個重要特徵:縮放規則和零樣本概括。
研究人員已公開所有模型和代碼,以促進AR/VAR模型在視覺生成和統一學習中的探索。
VAR算法為計算機視覺中自回歸算法的設計提供了新的見解,有望推動該領域的進一步發展。
項目地址:https://github.com/FoundationVision/VAR
演示地址:https://var.vision/demo
視頻: