繁中

WhisperSpeech:一個開源文本到語音的系統

值得注意的是,它是通過對OpenAI的Whisper自動語音識別模型進行反向工程實現的。

通過這個倒置過程,WhisperSpeech能夠接收文本輸入並使用修改後的Whisper模型生成聽起來自然的語音輸出。

輸出的語音在發音準確性和自然性方面都非常出色。

WhisperSpeech項目路線圖:

  • 聲學標記提取:改進聲學標記的提取過程。
  • 語義標記提取:使用Whisper模型生成和量化語義標記。
  • S-A模型轉換:開發將語義標記轉換為聲學標記的模型。
  • T-S模型轉換:實現文本標記到語義標記的轉換。
  • 提高EnCodec語音質量:優化EnCodec模型以提高文本到語音質量。
  • 短句推理優化:提高系統處理短句的能力。
  • 擴展情感言語數據集:收集更大的情感言語數據。
  • 記錄LibriLight數據集:詳細記錄HuggingFace上的數據集。
  • 多語言語音收集:收集社區資源收集多語言語音。
  • 訓練多語言模型:開發支持多種語言的文本到語音模型。

GitHub:https://github.com/collabora/WhisperSpeech
網站:https://collabora.github.io/WhisperSpeech/
在線體驗:https://replicate.com/lucataco/whisperspeech-small

此視頻中的內容已由safari自動翻譯

視頻:

返回頂端