騰訊還推出了一個讓照片唱歌說話的項目

比阿里EMO更早開源

AniPortrait：根據音頻和圖像輸入生成可以說話和唱歌的動態視頻

它可以根據音頻（例如語音）和靜態人臉圖片自動生成逼真的面部動畫，並保持口型一致。

支持多種語言，以及面部重畫和頭部姿勢控制。

主要功能：

1.音頻驅動動畫合成：AniPortrait可以使用音頻文件驅動來生成逼真的肖像動畫。這意味著用戶可以提供音頻文件和參考肖像圖片，AniPortrait將根據音頻中語音和聲音的節奏動態生成語音或表情變化的肖像動畫。
2.面部複製：除了音頻驅動動畫外，AniPortrait還支持面部複製。通過分析給定視頻中的面部表情和動作，AniPortrait可以在另一個參考肖像上重現相同的表情和動作。例如，用戶可以提供視頻來在新肖像上再現視頻中角色的面部表情和動作。這項技術可用於創建逼真的虛擬角色動畫，重現真人的表情和動作。
3.頭部姿勢控制：用戶可以指定頭部姿勢或選擇預設姿勢配置來控制生成的動畫中的頭部移動，使動畫效果更加自然、多樣化。
4.支持自驅動和音頻驅動的視頻生成：該項目不僅支持音頻驅動的動畫生成，還可以進行自驅動的視頻生成，即不需要外部音頻輸入，而是基於預設或隨機生成的動作創建動畫。
5.高質量動畫生成：niPortrait旨在生成高度逼真的肖像動畫，努力在視覺質量和動作的自然性方面接近真實角色的外觀和表現。
6.靈活的模型和權重配置：該項目提供了一組預先訓練的模型和權重配置，用戶可以根據自己的需求下載和配置，包括去噪、參考生成、姿態引導、動作模塊和音頻到網格轉換模型。包括StableVariety V1.5、降噪_unet、reference_unet、pose_guide、motion_模組和audio2mesh。

GitHub：https://github.com/Zejun-Yang/AniPortrait
論文：https://arxiv.org/abs/2403.17694

視頻：