繁中

谷歌還創建了一個項目,照片+音頻可以生成說話和唱歌的視頻

谷歌還創建了一個項目,照片+音頻可以生成說話和唱歌的視頻

VLOGGER:從一張照片中生成文本和音頻驅動的說話人視頻

VLOGER的獨特之處在於:

  • 沒有必要訓練每個人。
  • 不依賴於面部檢測和裁剪。
  • 生成的是完整的圖像(不僅僅是臉或嘴唇)。
  • 廣泛的場景(例如,考慮了可見的軀幹或多樣化的身份),這對於人類正確合成和交流至關重要。

但看演示視頻,效果似乎不如阿里的EMO……

項目地址:https://enriccorona.github.io/vlogger/
論文:https://arxiv.org/abs/2403.08764

在視頻翻譯方面,VLOGER可以以特定語言拍攝現有視頻,並編輯嘴唇和面部區域以容納新音頻,例如西班牙語。

視頻:

返回頂端