Hertz-dev：第一個會話音頻開源模型

全速實時語音交互120毫秒超低延遲
Hertz-dev是由Standard Intelligence開發的第一個會話音頻開源模型。hertz-dev是全雙工、僅音頻的Transformer基本模型。
其主要功能是生成對話音頻，即模擬人類對話的語音生成。支持全速音頻，可以像打電話或實時對話一樣同時接收和生成音頻，無需等待句子說完再回復。

項目概況

Hertz-dev是一個85億參數的Transformer模型，專為對話音頻生成而設計。它基於2000萬小時的高質量語音數據進行訓練，具有出色的語音建模能力，包括自然停頓、情感語調和其他特徵。理論延遲為80毫秒，單個RTX 4090圖形卡上的測量延遲約為120毫秒，明顯優於現有開源型號的響應速度。

技術架構

Hertz-dev包含以下關鍵組件：

赫茲編解碼器：一款高效的音頻自動編碼器，可將16 GHz單耳語音壓縮為8 Hz的潛在表示，編碼率約為1kbit，壓縮效率優於Soundstream和Encodec等方案。
赫茲：一個變分自動編碼器（VAE），具有18億個參數，可生成連貫的語音輸出，支持長達17分鐘的上下文記憶，適合長期對話。
赫茲-LM：一個包含66億參數的Transformer模型，部分複製了自我預訓練的語言模型，該模型專注於對話流暢性和上下文理解。

收件箱使用

該項目提供多種推理方法：

通過 inference.ipynb 生成單聲或雙聲語音輸出。
使用 推理_客戶端.py 和 推斷_server.py 實現實時麥克風交互（目前在Ubuntu伺服器和macOS客戶端上測試）。
使用 推理_客戶端_webrtc.py，結合Streamlit和WebREC，在瀏覽器中實現實時語音交互。

所有模型權重將自動下載到 ./ ckpt 目錄，也可從 ckpt.si.inc 獲取.

應用場景

作為基本模型，Hertz-dev尚未經歷強化學習或指令微調。適合以下場景的二次開發：

實時語音助手
多語言語音翻譯
遊戲中非玩家角色（NPC）的語音交互
客服語音機器人
語音情感識別與生成

聯接項目

GitHub：https://github.com/Standard-Intelligence/hertz-dev
輸油管：