VideoChat：實時語音交互數字人演示項目

支持端到端語音方案（GLM-4-Voice-THG）和級聯方案（ASR-LLM-TTS-THG）。無需培訓即可自定義圖像和音色，支持音調克隆，首個數據包延遲低至3秒。

概述

該項目展示了與可定製數字人實時互動的能力。它支持端到端（GLM-4-Voice）和級聯（ASR-LLM-TTS-THG）語音解決方案。用戶可以自定義數字人的外觀和聲音，並支持聲音克隆。初始延遲低至3秒。

該項目演示了如何創建可以參與實時語音對話的交互式數字人。以下是對其關鍵方面的詳細描述：

1.核心功能：

實時語音交互： 該項目的核心是讓數字人能夠與用戶進行自然的對話。
端到端和級聯解決方案： 提供兩種治療方法：
- 端到端（GLM-4-Voice）： 通過多模式大型語言模型（MLLM）直接處理語音並生成對話化身（THG）。
- Cascade（ASR-LLM-TTS-THG）： 該方法將處理過程分為幾個階段：自動語音識別（ASB）、大型語言模型（LLM）、文本到語音轉換（TTC）和對話化身生成（THG）。
定製： 用戶可以自定義數字人物的外觀和聲音。
語音克隆： 該項目支持聲音克隆，允許用戶向數字人提供特定或個性化的聲音。
低延遲： 該項目的目標是實現低延遲，第一個數據包延遲約為3秒。

2.技術選擇：

3.本地部署：

硬體要求：
- 級聯解決方案：需要大約8 GB的圖形處理器內存（例如單個A100）。
- 端到端解決方案：需要大約20 GB的圖形處理器內存。
軟體要求：
- Ubuntu 22.04
- Python 3.10
- CUDA 12.2
- PyTorch 2.3.0
設置步驟：
1. 環境配置： 提供有關如何克隆存儲庫、創建conda環境以及安裝必要的Python包的說明。
2. 體重下載： 提供了下載MuseTalk、GPT-SoVITS和GLM-4-Voice所需權重的說明，可以直接或使用Model Scope下載。
3. 其他配置：
  - API密鑰： 解釋如何使用LLM和DTS模塊（Qwen API和CosyVoice API）的API密鑰。如果您不想使用API密鑰，還提供了本地推理的說明。這涉及使用奎文進行當地LLM推理或使用Edge_TTC進行TTC。
4. 開始服務： 使用命令Python app.py開始演示。

4.定製：

數字人的外觀： 用戶可以添加他們錄製的數位化身視頻。
數字人聲： 用戶可以添加聲音樣本/data/audio文件夾，並在app.py向文件添加聲音名稱。支持的格式為x（GPT-So-Vits）。

5.關鍵文件：

輸油管：