全速實時語音交互120毫秒超低延遲
Hertz-dev是由Standard Intelligence開發的第一個會話音頻開源模型。hertz-dev是全雙工、僅音頻的Transformer基本模型。
其主要功能是生成對話音頻,即模擬人類對話的語音生成。支持全速音頻,可以像打電話或實時對話一樣同時接收和生成音頻,無需等待句子說完再回復。
項目概況
Hertz-dev是一個85億參數的Transformer模型,專為對話音頻生成而設計。它基於2000萬小時的高質量語音數據進行訓練,具有出色的語音建模能力,包括自然停頓、情感語調和其他特徵。理論延遲為80毫秒,單個RTX 4090圖形卡上的測量延遲約為120毫秒,明顯優於現有開源型號的響應速度。
技術架構
Hertz-dev包含以下關鍵組件:
-
赫茲編解碼器:一款高效的音頻自動編碼器,可將16 GHz單耳語音壓縮為8 Hz的潛在表示,編碼率約為1kbit,壓縮效率優於Soundstream和Encodec等方案。
-
赫茲:一個變分自動編碼器(VAE),具有18億個參數,可生成連貫的語音輸出,支持長達17分鐘的上下文記憶,適合長期對話。
-
赫茲-LM:一個包含66億參數的Transformer模型,部分複製了自我預訓練的語言模型,該模型專注於對話流暢性和上下文理解。
收件箱使用
該項目提供多種推理方法:
-
通過
inference.ipynb生成單聲或雙聲語音輸出。 -
使用
推理_客戶端.py和推斷_server.py實現實時麥克風交互(目前在Ubuntu伺服器和macOS客戶端上測試)。 -
使用
推理_客戶端_webrtc.py,結合Streamlit和WebREC,在瀏覽器中實現實時語音交互。
所有模型權重將自動下載到 ./ ckpt 目錄,也可從 ckpt.si.inc 獲取.
應用場景
作為基本模型,Hertz-dev尚未經歷強化學習或指令微調。適合以下場景的二次開發:
-
實時語音助手
-
多語言語音翻譯
-
遊戲中非玩家角色(NPC)的語音交互
-
客服語音機器人
-
語音情感識別與生成
聯接項目
GitHub:https://github.com/Standard-Intelligence/hertz-dev
輸油管: