北京大學元團團隊啟動了Open-Sora項目

旨在複製OpenAI的Sora模型

Open-Sora計劃通過視頻VQ-VAE、去噪擴散Transformer和條件編碼器等技術組件實現Sora模型的功能。

該項目現在支持：

可變長寬比
可變解析度
持續時間可變

演示視頻：10 s視頻重建（256 x256解析度）/18 s視頻重建（196 x）

Open-Sora項目實現了以下關鍵組件和功能，以複製OpenAI的視頻生成模型：

1.視頻VQ-VAE（載體量化變量AutoEncoder）：這是一個將視頻壓縮為時間和空間維度的潛在表示的組件。它將高解析度視頻壓縮為低維表示，以供後續處理和生成。
2.降噪擴散Transformer：該組件用於從潛在的表示生成視頻，並通過逐漸減少噪音來恢復視頻的細節。
3.條件編碼器：支持多種條件輸入，允許模型根據不同的文本描述或其他條件生成視頻內容。

此外，該項目還實施了多項技術來提高視頻生成的靈活性和質量：

1.可變長寬比：通過動態掩蔽策略進行並行批量訓練，保持靈活的長寬比。調整高解析度視頻的大小，使最長邊為256像素，保持長寬比，然後在右側和底部填充零，以實現統一的256 x256解析度。

2.可變解析度：儘管在固定的256 x256解析度上訓練，但在推理過程中，位置插值的使用允許可變解析度採樣。這使得基於注意力的擴散模型能夠處理更高解析度的序列。

3.可變持續時間：使用視頻VQ-VAE將視頻壓縮為潛在的表示形式，以實現多持續時間視頻生成。通過將空間位置插值擴展到時空版本來處理可變持續時間的視頻。

項目地址：https://pku-yuangroup.github.io/Open-Sora-Plan/blog_cn.html
GitHub：https://github.com/PKU-YuanGroup/Open-Sora-Plan

新視頻：