繁中

同益倩文發布Qwen 1.5 - 110 B

首個超過1000億元的參數模型

Qwen 1.5 - 110 B是Qwen 1.5系列的新成員,也是該系列中第一款參數超過1000億的型號。

該模型在基本模型評估中表現良好,與Meta-Lama 3 - 70 B相當,並且在聊天模型評估中表現良好,包括MT-Bench和AlpacaEval 2.0。

該模型支持多種語言,包括英語、中文、法語、西班牙語等,上下文長度可達32K令牌。

型號特點:

  • 架構:採用Transformer解碼器架構並具有群查詢注意力(GQA)。
  • 績效:在標準評估和聊天模型評估中表現出色。
  • 多語言支持:支持多種語言,上下文長度可達32K令牌。

根據官方評估結果,

Qwen 1.5 - 110 B型號的評估結果略超過Llama-3- 70 B和Mixtral-8 x 22 B。

Qwen 1.5 - 110 B模型在綜合理解(MMLU)和數學推理(GSM 8 K和MATH)方面的得分略高於Llama-3- 70 B,是幾個模型中最強的。然而,在複雜推理任務ARC-C上,它略低於Mixtral-8 x 22 B模型。HumanEval在編程測試中的得分遠高於其他模型,而MBPP編程測試分數低於Mixtal-8 x 22 B模型。

如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝

詳情:https://qwenlm.github.io/blog/qwen1.5-110b/

視頻:

返回頂端