AI 21發布全球首款Mamba生產級模型：Jamba

開創性的SSM-Transformer架構

RST 52 B參數，12 B在生成期間處於活動狀態
👨‍🏫16 位专家，生成过程中仅2个专家处于活跃状态
結合Joint Attention和Mamba技術
支持256 K上下文長度
單個A100 80 GB可容納多達140K個上下文
🚀長上下文吞吐量是Mixtral 8x 7 B的3倍

Jamba將Mamba結構化狀態空間（RSM）技術與傳統Transformer架構的元素相結合，以彌補純SBA模型的固有局限性。

背景知識

Jamba代表了模型設計的重大創新。這裡的「曼巴」指的是結構化狀態空間模型（RSM），這是一種用於隨時間推移捕獲和處理數據的模型，特別適合處理序列數據，例如文本或時間序列數據。ESM模型的一個關鍵優勢是它能夠有效地處理長數據序列，但在處理複雜模式和依賴關係方面，它可能不如其他模型那麼強大。

「Transformer」架構是近年來人工智慧領域最成功的模型之一，尤其是在自然語言處理（NLP）任務方面。它可以非常有效地處理和理解語言數據，並捕獲長距離依賴關係，但在處理長序列數據時會遇到計算效率和內存消耗的問題。

Jamba模型將Mamba的ESM技術與Transformer架構的元素相結合，旨在利用兩者的優勢，同時克服各自的局限性。通過這種組合，Jamba不僅能夠高效地處理長序列數據（Mamba的優勢），而且還能夠保持對複雜語言模式和依賴性的高度理解（Transformer的優勢）。這意味著Jamba模型在處理需要理解大量文本和複雜依賴項的任務時仍然有效，而不會犧牲性能或精確性。

網站：https://ai21.com/jamba
詳細居間：https://ai21.com/blog/announcing-jamba
型號：https://huggingface.co/ai21labs/Jamba-v0.1

視頻：