值得注意的是,它是通過對OpenAI的Whisper自動語音識別模型進行反向工程實現的。
通過這個倒置過程,WhisperSpeech能夠接收文本輸入並使用修改後的Whisper模型生成聽起來自然的語音輸出。
輸出的語音在發音準確性和自然性方面都非常出色。
WhisperSpeech項目路線圖:
- 聲學標記提取:改進聲學標記的提取過程。
- 語義標記提取:使用Whisper模型生成和量化語義標記。
- S-A模型轉換:開發將語義標記轉換為聲學標記的模型。
- T-S模型轉換:實現文本標記到語義標記的轉換。
- 提高EnCodec語音質量:優化EnCodec模型以提高文本到語音質量。
- 短句推理優化:提高系統處理短句的能力。
- 擴展情感言語數據集:收集更大的情感言語數據。
- 記錄LibriLight數據集:詳細記錄HuggingFace上的數據集。
- 多語言語音收集:收集社區資源收集多語言語音。
- 訓練多語言模型:開發支持多種語言的文本到語音模型。
GitHub:https://github.com/collabora/WhisperSpeech
網站:https://collabora.github.io/WhisperSpeech/
在線體驗:https://replicate.com/lucataco/whisperspeech-small
此視頻中的內容已由safari自動翻譯
視頻: