基於單個圖像和音頻輸入生成唱歌和說話視頻

並可以控制角色的表情和姿勢
與EMO相比，該項目是開源的
通過輸入語音，可以生成相應角色嘴唇同步、表情變化、姿勢變化的動畫。
提高語音和生成的動畫之間的對齊準確性，使動畫的嘴唇、表情和手勢更好地匹配語音。

提供角色表情、姿勢和嘴唇運動的精確控制。
支持多種表情和姿勢的自適應控制，增強動畫的多樣性和真實性。

在語音和音頻輸入的驅動下，肖像圖像動畫領域在生成逼真、動態的肖像方面取得了重大進展。這項研究深入研究了同步面部運動和在基於擴散的方法的框架內創建視覺上有吸引力、時間一致的動畫的複雜性。我們的創新方法擺脫了依賴參數模型進行中間面部表示的傳統範式，採用端到端擴散範式，並引入分層音頻驅動視覺合成模塊，以提高音頻輸入和視覺輸出（包括嘴唇、表情和手勢）之間的對齊準確性。我們提出的網絡架構無縫集成了基於擴散的生成模型、基於UNet的降噪器、時間對齊技術和參考網絡。提出的分層音頻驅動視覺合成提供了對表情和手勢多樣性的自適應控制，允許對不同身份進行更有效的個性化。通過定性和定量分析的綜合評估，我們的方法在圖像和視頻質量、嘴唇同步準確性和運動多樣性方面都取得了顯著提高。

該項目由復旦大學、百度、蘇黎世聯邦理工學院、南京大學共同開發

欲了解更多詳細信息，您可以閱讀原文，可在以下連結中找到
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

阿爾西夫：https://arxiv.org/abs/2406.08801
擁抱臉：https://huggingface.co/fudan-generative-ai/hallo
項目地址：https://fudan-generative-vision.github.io/hallo/#/

輸油管：