StoryDistance這個字節中的新項目表現良好

能夠生成具有豐富細節和多樣化內容的圖像和視頻，同時保持角色身份和服裝的一致性。

可以幫助生成具有連續情節的長篇漫畫或視頻。

與IP適配器和PhotoMaker等方法相比，StoryVariety在更好地控制文本提示並生成更匹配描述的圖像和視頻的同時保持角色一致性。

關鍵部件：

一致的自我注意力是StoryDistance框架的核心組件之一。它通過在生成過程中為參考圖像引入樣本標記來增強不同圖像之間的一致性。

Semantic Motion Predictor是StoryDistance中的另一個關鍵組件，專門用於長距離視頻生成。

以下內容來自澎湃新聞：

對於最近的基於擴散的生成模型，在一系列生成的圖像中保持一致的內容，特別是那些包含主題和複雜細節的圖像，提出了重大挑戰。
在本文中，我們提出了一種新的自我注意力計算方法，稱為一致性自我注意力，它顯著提高了生成圖像之間的一致性，並增強了流行的基於預訓練擴散的文本到圖像模型的零樣本。為了將我們的方法擴展到遠程視頻生成，我們進一步引入了一種新型的語義時空運動預測模塊，稱為語義運動預測器。它被訓練為估計語義空間中提供的兩個圖像之間的運動條件。該模塊將生成的圖像序列轉換為具有平滑過渡和一致主題的視頻，這比僅基於潛在空間的模塊更穩定，尤其是在生成長視頻時。
通過結合這兩個新穎的組件，我們的框架（稱為StoryVariety）可以描述包含一致圖像或包含豐富內容的視頻的基於文本的故事。擬議的StoryDistance涵蓋了通過圖像和視頻呈現生成視覺故事的開創性探索，我們希望這將激發更多建築修改方面的研究。我們的代碼在此https URL上公開可用。

如果您想了解更多信息，可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

論文：https://arxiv.org/abs/2405.01434
項目地址：https://storydiffusion.github.io

輸油管：