VividTalk：一張照片+一個音頻讓照片說話

您需要做的就是提供該人的靜態照片和語音記錄，VividTalk將將它們結合起來創建一個看起來像該人實際說話的視頻。

而且面部表情和頭部動作非常自然，口型可以同步，支持多種語言，風格不同，例如真實風格、卡通風格等。

該項目由南京大學、阿里巴巴、字節跳動和南華大學聯合開發。

VividTalk通過先進的音頻到3D網格映射技術和網格到視頻轉換技術，實現了高質量、逼真的音頻驅動的說話化身視頻生成。

詳細解釋其工作原理：

1.音頻到網格的映射（第一階段）：

在此階段，VividTalk首先將輸入音頻映射到3D網格上。這涉及學習兩種類型的運動：非剛性表情運動和剛性頭部運動。

對於表情運動，技術使用混合形狀和點作為中間表示來最大化模型的表示。混合形狀提供了全球景觀的總體運動，而頂部補償則描述了更細緻入微的嘴唇運動。

對於自然的頭部運動，VividTalk提出了一種新穎的可學習頭部姿勢碼本，該碼本採用兩階段訓練機制。

2.網格到視頻轉換（第二階段）：

在第二階段，VividTalk使用兩個分支的運動- VAE（變分自動編碼器）和生成器將學習的網格轉換為密集的運動，並基於這些運動逐幀合成高質量的視頻。

該過程涉及將3D網格的運動轉換為密集的2D運動，然後將其輸入生成器以合成最終的視頻幀。

3.高視覺質量和真實感：

VividTalk生成的視頻具有很高的視覺質量，包括逼真的面部表情、多樣化的頭部姿勢以及嘴唇同步的顯著改進。

通過這種方法，VividTalk能夠生成與輸入音頻高度同步的逼真的說話化身視頻，增強視頻的真實感和動態性。