開創性的SSM-Transformer架構
RST 52 B參數,12 B在生成期間處於活動狀態
👨🏫16 位专家,生成过程中仅2个专家处于活跃状态
結合Joint Attention和Mamba技術
支持256 K上下文長度
單個A100 80 GB可容納多達140K個上下文
🚀長上下文吞吐量是Mixtral 8x 7 B的3倍
Jamba將Mamba結構化狀態空間(RSM)技術與傳統Transformer架構的元素相結合,以彌補純SBA模型的固有局限性。
背景知識
Jamba代表了模型設計的重大創新。這裡的「曼巴」指的是結構化狀態空間模型(RSM),這是一種用於隨時間推移捕獲和處理數據的模型,特別適合處理序列數據,例如文本或時間序列數據。ESM模型的一個關鍵優勢是它能夠有效地處理長數據序列,但在處理複雜模式和依賴關係方面,它可能不如其他模型那麼強大。
「Transformer」架構是近年來人工智慧領域最成功的模型之一,尤其是在自然語言處理(NLP)任務方面。它可以非常有效地處理和理解語言數據,並捕獲長距離依賴關係,但在處理長序列數據時會遇到計算效率和內存消耗的問題。
Jamba模型將Mamba的ESM技術與Transformer架構的元素相結合,旨在利用兩者的優勢,同時克服各自的局限性。通過這種組合,Jamba不僅能夠高效地處理長序列數據(Mamba的優勢),而且還能夠保持對複雜語言模式和依賴性的高度理解(Transformer的優勢)。這意味著Jamba模型在處理需要理解大量文本和複雜依賴項的任務時仍然有效,而不會犧牲性能或精確性。
網站:https://ai21.com/jamba
詳細居間:https://ai21.com/blog/announcing-jamba
型號:https://huggingface.co/ai21labs/Jamba-v0.1
視頻: