繁中

Lumiere:立即生成整個視頻

谷歌研究團隊開發的時空文本到視頻擴散模型。

它使用創新的時空U-Net架構,可以同時生成整個視頻長度,這與逐幀合成視頻的其他模型不同。

確保生成視頻的連貫性和保真度。

支持文本到視頻、圖像到視頻、風格化視頻生成、視頻編輯等

主要特點:

1.文本到視頻擴散模型:Lumiere可以根據文本提示生成視頻,實現從文本描述到視頻內容的直接轉換。
2.時空U-Net架構:與其他需要逐步合成視頻的模型不同,Lumiere能夠一次生成整個視頻。這種獨特的架構允許Lumiere一次生成整個視頻長度,這與逐幀合成視頻的其他模型不同。
3.全球時間一致性:由於其架構的特點,Lumiere可以更容易地實現視頻內容的全球時間一致性,確保視頻的一致性和保真度。
4.多尺度時空處理:Lumiere學習通過在多個時空尺度上處理視頻來直接生成視頻,這是一種先進的方法。
5.風格化視頻生成:使用單個參考圖像,Lumiere可以生成目標風格的視頻,這種能力在其他視頻生成模型中是罕見的。
6.廣泛的內容創建和視頻編輯應用程式:Lumiere支持各種內容創建任務和視頻編輯應用程式,例如圖像到視頻,視頻優化和風格化生成。

視頻樣式:使用基於文本的圖像編輯方法,Lumiere可以一致地設置視頻樣式。
圖像合成功能:該模型可以在用戶指定區域中動畫圖像內容,為靜態圖像添加動態效果。
視頻修補功能:Lumiere提供視頻修補功能,允許您修改和修飾視頻中的特定內容。

項目和演示:https://lumiere-video.github.io
紙張:https://arxiv.org/abs/2401.12945

此視頻中的內容已由safari自動翻譯

視頻:

返回頂端