繁中

MistralAI基於MoE部開源大型模型

MistralAI開源了世界上第一個(可能)基於MoE(專家混合)技術的大型模型

有趣的事實:

  • 以87 GB種子形式發布
  • 似乎是GPT-4的縮小版
  • 發布在X上,沒有新聞稿,也拒絕詳細說明

專家混合(MoE)是LLM中用於提高效率和準確性的一種技術。這種方法的工作原理是將複雜任務分為更小、更易於管理的子任務,每個子任務都由專門的迷你模型或「專家」處理。"

  1. 專家層:這些是較小的神經網絡,經過訓練,使其在特定領域擁有高度熟練的技能。
    2.門控網絡:這是MoE架構的決策者。

擴展信息:

MoE技術簡介:混合專家(MoE)是一種用於大型語言模型(LLM)以提高效率和準確性的技術。它的工作原理是將複雜任務分解為更小、更易於管理的子任務,每個子任務都由專門的小模型或「專家」處理。"

MoE的組件:專家層:這些是小型神經網絡,經過訓練專門從事特定領域。每個專家都以與其專業化相匹配的方式處理相同的輸入。

門控網絡:這是MoE架構的決策者。它評估哪位專家最適合給定的輸入數據。網絡計算輸入與每位專家之間的兼容性分數,然後使用這些分數來確定每位專家在任務中的參與程度。

Mistral的MoE與GPT-4:Mistral 8x 7 B使用與GPT-4非常相似的架構,但規模較小:總共8名專家而不是16名(減少2倍),每個專家有7 B參數而不是166 B(減少24倍),總共約42 B參數而不是1.8T(減少42倍),與原始GPT-4相同的32 K上下文。

下載連結(磁鐵連結):

磁鐵:?文本=urn:btih:5546272 da9065eddeb6fcd7ffddeef5b75be79a7 dn=mixtral-8x7b-32kseqlen TR=udp%3A%2F%http://2Fopentracker.i2p.rocks%3A6969%2Farannounce TR= https://t.co/g0m9cEUz0T%3A80%2Fannounce
發布a6bbd9 affe0c2725c1b7410d66833e24

MoE 8x 7 B在線體驗,由@mattshumer_提供: https://replicate.com/nateraw/mixtral-8x7b-32kseqlen

返回頂端