繁中

WhisperSpeech：一個開源文本到語音的系統

作者: / 12 2 月, 2024

值得注意的是，它是通過對OpenAI的Whisper自動語音識別模型進行反向工程實現的。

通過這個倒置過程，WhisperSpeech能夠接收文本輸入並使用修改後的Whisper模型生成聽起來自然的語音輸出。

輸出的語音在發音準確性和自然性方面都非常出色。

WhisperSpeech項目路線圖：

聲學標記提取：改進聲學標記的提取過程。
語義標記提取：使用Whisper模型生成和量化語義標記。
S-A模型轉換：開發將語義標記轉換為聲學標記的模型。
T-S模型轉換：實現文本標記到語義標記的轉換。
提高EnCodec語音質量：優化EnCodec模型以提高文本到語音質量。
短句推理優化：提高系統處理短句的能力。
擴展情感言語數據集：收集更大的情感言語數據。
記錄LibriLight數據集：詳細記錄HuggingFace上的數據集。
多語言語音收集：收集社區資源收集多語言語音。
訓練多語言模型：開發支持多種語言的文本到語音模型。

GitHub：https://github.com/collabora/WhisperSpeech
網站：https://collabora.github.io/WhisperSpeech/
在線體驗：https://replicate.com/lucataco/whisperspeech-small

此視頻中的內容已由safari自動翻譯

視頻：