北京大學發布新圖像生成框架VAR

VAR首次允許GPT風格的AR模型在圖像生成方面超越Diffusion transformers。
與此同時，它顯示了與大型語言模型中觀察到的規則相似的規則。
在ImageNet 256 x256基準測試中，VAR將DID從18.65顯著提高到1.80，將IS從80.4顯著提高到356.4，將推理速度提高了20倍。

詳細居間：

視覺自回歸模型（VAR）是一種新的圖像生成範式，它將自回歸學習從粗到細重新定義為「下一尺度預測」或「下一解析度預測」，這與標準的格柵掃描「下一個令牌預測」不同。"
這種簡單直觀的方法使自回歸Transformer能夠快速學習視覺分布，並具有良好的泛化能力：
VAR首次允許GPT風格的AR模型在圖像生成方面超越擴散變形器。
在ImageNet 256 x256基準測試中，VAR將DID從18.65顯著提高到1.80，將IS從80.4顯著提高到356.4，將推理速度提高了20倍。
實證結果表明，VAR在圖像質量、推理速度、數據效率和可擴展性等多個方面優於擴散Transformer。
隨著VAR模型的擴展，它表現出與大語言模型中觀察到的相似的乘勢律縮放模式，線性相關係數接近-0.998，這有力地證明了這一點。
VAR進一步展示了圖像修復、外推和編輯等下游任務的零樣本概括能力。
這些結果表明VAR最初模擬了大型語言模型的兩個重要特徵：縮放規則和零樣本概括。
研究人員已公開所有模型和代碼，以促進AR/VAR模型在視覺生成和統一學習中的探索。
VAR算法為計算機視覺中自回歸算法的設計提供了新的見解，有望推動該領域的進一步發展。

項目地址：https://github.com/FoundationVision/VAR
演示地址：https://var.vision/demo

視頻：