支持端到端語音方案(GLM-4-Voice-THG)和級聯方案(ASR-LLM-TTS-THG)。無需培訓即可自定義圖像和音色,支持音調克隆,首個數據包延遲低至3秒。
概述
該項目展示了與可定製數字人實時互動的能力。它支持端到端(GLM-4-Voice)和級聯(ASR-LLM-TTS-THG)語音解決方案。用戶可以自定義數字人的外觀和聲音,並支持聲音克隆。初始延遲低至3秒。
詳細描述
該項目演示了如何創建可以參與實時語音對話的交互式數字人。以下是對其關鍵方面的詳細描述:
1.核心功能:
- 實時語音交互: 該項目的核心是讓數字人能夠與用戶進行自然的對話。
- 端到端和級聯解決方案: 提供兩種治療方法:
- 端到端(GLM-4-Voice): 通過多模式大型語言模型(MLLM)直接處理語音並生成對話化身(THG)。
- Cascade(ASR-LLM-TTS-THG): 該方法將處理過程分為幾個階段:自動語音識別(ASB)、大型語言模型(LLM)、文本到語音轉換(TTC)和對話化身生成(THG)。
- 定製: 用戶可以自定義數字人物的外觀和聲音。
- 語音克隆: 該項目支持聲音克隆,允許用戶向數字人提供特定或個性化的聲音。
- 低延遲: 該項目的目標是實現低延遲,第一個數據包延遲約為3秒。
2.技術選擇:
- ASB: 使用FunASB進行自動語音識別。
- 法學碩士: 使用Qwen作為大語言模型。
- 端到端MLLM: GLM-4-Voice處理端到端多模式處理。
- https: 支持多個TTC引擎:GPT-SoVITS、CosyVoice和edge-tts。
- THG: 使用MuseTalk生成對話化身。
3.本地部署:
- 硬體要求:
- 級聯解決方案:需要大約8 GB的圖形處理器內存(例如單個A100)。
- 端到端解決方案:需要大約20 GB的圖形處理器內存。
- 軟體要求:
- Ubuntu 22.04
- Python 3.10
- CUDA 12.2
- PyTorch 2.3.0
- 設置步驟:
- 環境配置: 提供有關如何克隆存儲庫、創建conda環境以及安裝必要的Python包的說明。
- 體重下載: 提供了下載MuseTalk、GPT-SoVITS和GLM-4-Voice所需權重的說明,可以直接或使用Model Scope下載。
- 其他配置:
- API密鑰: 解釋如何使用LLM和DTS模塊(Qwen API和CosyVoice API)的API密鑰。如果您不想使用API密鑰,還提供了本地推理的說明。這涉及使用
奎文進行當地LLM推理或使用Edge_TTC進行TTC。
- API密鑰: 解釋如何使用LLM和DTS模塊(Qwen API和CosyVoice API)的API密鑰。如果您不想使用API密鑰,還提供了本地推理的說明。這涉及使用
- 開始服務: 使用命令
Python app.py開始演示。
4.定製:
- 數字人的外觀: 用戶可以添加他們錄製的數位化身視頻。
- 數字人聲: 用戶可以添加聲音樣本
/data/audio文件夾,並在app.py向文件添加聲音名稱。支持的格式為x(GPT-So-Vits)。
5.關鍵文件:
app.py:處理Greaudio接口和邏輯的主要應用程式文件。SRC/llm.py:包含LLM實現(Qwen,Qwen_API)。SRC/tts.py:包含TTS實現(GPT_So_Vits_TTS、CosyVoice_API、Edge_TTS)。SRC/thg.py:使用MuseTalk處理會話化身生成。
Github:https://github.com/Henry-23/VideoChat
在線演示:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
輸油管: