繁中

TRAMBA:一種新的基於Transformer和Mamba的混合架構

資料來源:@Columbia @ Northwestern U #ai

針對移動和可穿戴平台的語音超解析度和增強

來自西北大學和哥倫比亞大學的研究人員推出了混合Transformer TRAMBA和Mamba架構,以增強移動和可穿戴平台中的聲學和骨導語音。此前,由於勞動密集型數據收集和模型之間的性能差距,在此類平台中採用骨傳導語音增強技術面臨挑戰。TRAMBA通過使用廣泛可用的音頻語音數據集進行預訓練並使用少量骨傳導數據進行微調來解決這個問題。它使用單個可穿戴加速度計來重建可理解的語音,展示了多種聲學模式的多功能性。TRAMBA集成到可穿戴和移動平台中,以實現實時語音超解析度並顯著降低功耗。這也是第一項僅使用單個頭戴式加速度計來感知可理解語音的研究。

在宏觀層面,TRAMBA架構在下採樣和上採樣層集成了改進的U-Net結構和自我關注機制,並在窄瓶頸層集成了Mamba。TRAMBA在512 ms的單通道音頻窗口上運行,並預處理來自加速度計的加速度數據。每個下採樣塊由一個具有LeakyReLU激活的1D卷積層組成,隨後是一個名為僅限縮放注意力特徵線性調製(SAFiLM)的穩健調整層。SAFiLM使用多頭注意力機制來學習縮放因子以增強特徵表示。瓶頸層使用Mamba,它以高效的內存使用和類似Transformer的注意力機制而聞名。然而,由於梯度消失問題,Transformer僅保留在下採樣和上採樣塊中。剩餘連接用於促進梯度流和優化更深層次的網絡,提高訓練效率。

如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝

快速閱讀: https://marktechpost.com/2024/05/08/tramba-a-novel-hybrid-transformer-and-mamba-based-architecture-for-speech-super-resolution-and-enhancement-for-mobile-and-wearable-platforms/

論文: https://arxiv.org/abs/2405.01242

輸油管:

返回頂端