繁中

Hertz-dev:第一個會話音頻開源模型

全速實時語音交互120毫秒超低延遲
Hertz-dev是由Standard Intelligence開發的第一個會話音頻開源模型。hertz-dev是全雙工、僅音頻的Transformer基本模型。
其主要功能是生成對話音頻,即模擬人類對話的語音生成。支持全速音頻,可以像打電話或實時對話一樣同時接收和生成音頻,無需等待句子說完再回復。

項目概況

Hertz-dev是一個85億參數的Transformer模型,專為對話音頻生成而設計。它基於2000萬小時的高質量語音數據進行訓練,具有出色的語音建模能力,包括自然停頓、情感語調和其他特徵。理論延遲為80毫秒,單個RTX 4090圖形卡上的測量延遲約為120毫秒,明顯優於現有開源型號的響應速度。

技術架構

Hertz-dev包含以下關鍵組件:

  • 赫茲編解碼器:一款高效的音頻自動編碼器,可將16 GHz單耳語音壓縮為8 Hz的潛在表示,編碼率約為1kbit,壓縮效率優於Soundstream和Encodec等方案。

  • 赫茲:一個變分自動編碼器(VAE),具有18億個參數,可生成連貫的語音輸出,支持長達17分鐘的上下文記憶,適合長期對話。

  • 赫茲-LM:一個包含66億參數的Transformer模型,部分複製了自我預訓練的語言模型,該模型專注於對話流暢性和上下文理解。

收件箱使用

該項目提供多種推理方法:

  • 通過 inference.ipynb 生成單聲或雙聲語音輸出。

  • 使用 推理_客戶端.py推斷_server.py 實現實時麥克風交互(目前在Ubuntu伺服器和macOS客戶端上測試)。

  • 使用 推理_客戶端_webrtc.py,結合Streamlit和WebREC,在瀏覽器中實現實時語音交互。

所有模型權重將自動下載到 ./ ckpt 目錄,也可從 ckpt.si.inc 獲取.

應用場景

作為基本模型,Hertz-dev尚未經歷強化學習或指令微調。適合以下場景的二次開發:

  • 實時語音助手

  • 多語言語音翻譯

  • 遊戲中非玩家角色(NPC)的語音交互

  • 客服語音機器人

  • 語音情感識別與生成

聯接項目

GitHub:https://github.com/Standard-Intelligence/hertz-dev
輸油管:

返回頂端