繁中

VideoChat:實時語音交互數字人演示項目

支持端到端語音方案(GLM-4-Voice-THG)和級聯方案(ASR-LLM-TTS-THG)。無需培訓即可自定義圖像和音色,支持音調克隆,首個數據包延遲低至3秒。

概述

該項目展示了與可定製數字人實時互動的能力。它支持端到端(GLM-4-Voice)和級聯(ASR-LLM-TTS-THG)語音解決方案。用戶可以自定義數字人的外觀和聲音,並支持聲音克隆。初始延遲低至3秒。

詳細描述

該項目演示了如何創建可以參與實時語音對話的交互式數字人。以下是對其關鍵方面的詳細描述:

1.核心功能:

  • 實時語音交互: 該項目的核心是讓數字人能夠與用戶進行自然的對話。
  • 端到端和級聯解決方案: 提供兩種治療方法:
    • 端到端(GLM-4-Voice): 通過多模式大型語言模型(MLLM)直接處理語音並生成對話化身(THG)。
    • Cascade(ASR-LLM-TTS-THG): 該方法將處理過程分為幾個階段:自動語音識別(ASB)、大型語言模型(LLM)、文本到語音轉換(TTC)和對話化身生成(THG)。
  • 定製: 用戶可以自定義數字人物的外觀和聲音。
  • 語音克隆: 該項目支持聲音克隆,允許用戶向數字人提供特定或個性化的聲音。
  • 低延遲: 該項目的目標是實現低延遲,第一個數據包延遲約為3秒。

2.技術選擇:

  • ASB: 使用FunASB進行自動語音識別。
  • 法學碩士: 使用Qwen作為大語言模型。
  • 端到端MLLM: GLM-4-Voice處理端到端多模式處理。
  • https: 支持多個TTC引擎:GPT-SoVITS、CosyVoice和edge-tts。
  • THG: 使用MuseTalk生成對話化身。

3.本地部署:

  • 硬體要求:
    • 級聯解決方案:需要大約8 GB的圖形處理器內存(例如單個A100)。
    • 端到端解決方案:需要大約20 GB的圖形處理器內存。
  • 軟體要求:
    • Ubuntu 22.04
    • Python 3.10
    • CUDA 12.2
    • PyTorch 2.3.0
  • 設置步驟:
    1. 環境配置: 提供有關如何克隆存儲庫、創建conda環境以及安裝必要的Python包的說明。
    2. 體重下載: 提供了下載MuseTalk、GPT-SoVITS和GLM-4-Voice所需權重的說明,可以直接或使用Model Scope下載。
    3. 其他配置:
      • API密鑰: 解釋如何使用LLM和DTS模塊(Qwen API和CosyVoice API)的API密鑰。如果您不想使用API密鑰,還提供了本地推理的說明。這涉及使用奎文進行當地LLM推理或使用Edge_TTC進行TTC。
    4. 開始服務: 使用命令Python app.py開始演示。

4.定製:

  • 數字人的外觀: 用戶可以添加他們錄製的數位化身視頻。
  • 數字人聲: 用戶可以添加聲音樣本/data/audio文件夾,並在app.py向文件添加聲音名稱。支持的格式為x(GPT-So-Vits)

5.關鍵文件:

  • app.py:處理Greaudio接口和邏輯的主要應用程式文件。
  • SRC/llm.py:包含LLM實現(Qwen,Qwen_API)。
  • SRC/tts.py:包含TTS實現(GPT_So_Vits_TTS、CosyVoice_API、Edge_TTS)。
  • SRC/thg.py:使用MuseTalk處理會話化身生成。

Github:https://github.com/Henry-23/VideoChat
在線演示:https://www.modelscope.cn/studios/AI-ModelScope/video_chat

輸油管:

返回頂端