模型架構:
參數為132 B的MoE模型共有16名專家,每個Token激活4名專家,這意味著有36 B的活動參數,而Mixstral只有13 B的活動參數(少了近三倍)。
性能:
它在語言理解、編程、數學和邏輯方面輕鬆擊敗了LLaMA 2 - 70 B、Mixtral和Grok-1等開源模型。
DBRx在大多數基準測試中超過GPT-3.5。
DBRx是一個基於MegaBlocks研究和開源項目構建的專家混合模型(MoE),每秒處理的標籤數量非常快。
數據培訓:
預訓練了12萬億個文本和代碼代幣,支持的最大上下文長度為32 k個代幣。
滿足DBRX:通用LLM,為高效的開源模型設定了新標準。
在RAG應用程式中使用DBRx模型或使用DBRx設計來構建您自己的自定義LLM並提高GenAI應用程式的質量。
https://dbricks.co/43xaCMj
視頻: