繁中

北京大學元團團隊啟動了Open-Sora項目

旨在複製OpenAI的Sora模型

Open-Sora計劃通過視頻VQ-VAE、去噪擴散Transformer和條件編碼器等技術組件實現Sora模型的功能。

該項目現在支持:

可變長寬比
可變解析度
持續時間可變

演示視頻:10 s視頻重建(256 x256解析度)/18 s視頻重建(196 x)

Open-Sora項目實現了以下關鍵組件和功能,以複製OpenAI的視頻生成模型:

1.視頻VQ-VAE(載體量化變量AutoEncoder):這是一個將視頻壓縮為時間和空間維度的潛在表示的組件。它將高解析度視頻壓縮為低維表示,以供後續處理和生成。
2.降噪擴散Transformer:該組件用於從潛在的表示生成視頻,並通過逐漸減少噪音來恢復視頻的細節。
3.條件編碼器:支持多種條件輸入,允許模型根據不同的文本描述或其他條件生成視頻內容。

此外,該項目還實施了多項技術來提高視頻生成的靈活性和質量:

1.可變長寬比:通過動態掩蔽策略進行並行批量訓練,保持靈活的長寬比。調整高解析度視頻的大小,使最長邊為256像素,保持長寬比,然後在右側和底部填充零,以實現統一的256 x256解析度。

2.可變解析度:儘管在固定的256 x256解析度上訓練,但在推理過程中,位置插值的使用允許可變解析度採樣。這使得基於注意力的擴散模型能夠處理更高解析度的序列。

3.可變持續時間:使用視頻VQ-VAE將視頻壓縮為潛在的表示形式,以實現多持續時間視頻生成。通過將空間位置插值擴展到時空版本來處理可變持續時間的視頻。

項目地址:https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html
GitHub:https://github.com/PKU-YuanGroup/Open-Sora-Plan

新視頻:

返回頂端