繁中

VividTalk:一張照片+一個音頻讓照片說話

您需要做的就是提供該人的靜態照片和語音記錄,VividTalk將將它們結合起來創建一個看起來像該人實際說話的視頻。

而且面部表情和頭部動作非常自然,口型可以同步,支持多種語言,風格不同,例如真實風格、卡通風格等。

該項目由南京大學、阿里巴巴、字節跳動和南華大學聯合開發。

VividTalk通過先進的音頻到3D網格映射技術和網格到視頻轉換技術,實現了高質量、逼真的音頻驅動的說話化身視頻生成。

詳細解釋其工作原理:

1.音頻到網格的映射(第一階段):

在此階段,VividTalk首先將輸入音頻映射到3D網格上。這涉及學習兩種類型的運動:非剛性表情運動和剛性頭部運動。

對於表情運動,技術使用混合形狀和點作為中間表示來最大化模型的表示。混合形狀提供了全球景觀的總體運動,而頂部補償則描述了更細緻入微的嘴唇運動。

對於自然的頭部運動,VividTalk提出了一種新穎的可學習頭部姿勢碼本,該碼本採用兩階段訓練機制。

2.網格到視頻轉換(第二階段):

在第二階段,VividTalk使用兩個分支的運動- VAE(變分自動編碼器)和生成器將學習的網格轉換為密集的運動,並基於這些運動逐幀合成高質量的視頻。

該過程涉及將3D網格的運動轉換為密集的2D運動,然後將其輸入生成器以合成最終的視頻幀。

3.高視覺質量和真實感:

VividTalk生成的視頻具有很高的視覺質量,包括逼真的面部表情、多樣化的頭部姿勢以及嘴唇同步的顯著改進。

通過這種方法,VividTalk能夠生成與輸入音頻高度同步的逼真的說話化身視頻,增強視頻的真實感和動態性。

項目和演示: https://humanaigc.github.io/vivid-talk/
論文: https://arxiv.org/pdf/2312.01841.pdf
GitHub:https://github.com/HumanAIGC/VividTalk

返回頂端