ReFuel LLM-2：專門為數據注釋和清理而設計的開源語言模型

原文請參閱下面的連結。本文主要翻譯原文

RefuelAI最近推出了大型語言模型RefuelLLM-2和RefuelLLM-2-small的兩個新版本。
RefuelLLM-2和RefuelLLM-2-small是專門為數據注釋、清理和豐富任務設計的語言模型。

目的：RefuelLLM-2主要用於自動化數據注釋、數據清理和數據豐富，這是處理和分析大規模數據集時的基本任務，尤其是在需要將非結構化數據轉換為結構化格式的場景中。

主要功能：

高性能數據注釋：該模型可以自動識別和標記數據中的關鍵信息，例如對數據進行分類、解析特定屬性等。
數據清理：自動識別和糾正數據中的錯誤或不一致，例如拼寫錯誤、格式問題等。
數據豐富：自動補充缺失的信息或基於現有數據提供額外上下文，以提高數據的價值和可用性。
高準確度：在大約30個數據注釋任務的基準測試中，RefuelLLM-2（83.82%）的表現優於所有最先進的LLM，包括GPT-4-Turbo（80.88%）、Claude-3-Opus（79.19%）和Gemini-1.5-Pro（74.59%）。

‍

結果

基準數據集

與之前推出的ReFuel LLM相比，我們在基準測試中添加了10個數據集：

長上下文數據集：已添加Quality和NaturalQuestions等數據集，以專門評估具有長輸入上下文的任務的質量。
私人評估數據集：由於對數據（有效性）的擔憂，許多研究人員和從業者最近強調了僅對公共數據集（閱讀[1]、[2]、[3]）污染評估LLM的局限性。為了測試LLM對現實世界數據標籤和豐富任務的概括和執行，我們還將非公共數據集添加到我們的基準中。
我們使用Autolabel，我們的LLM支持的數據標記的開源庫，運行本報告中的所有實驗。
‍

質量

輸出質量衡量LLM生成的輸出與所提供的真實標籤的一致性。

在數據標籤和豐富性方面，RefuelLLM-2（83.82%）優於所有當前最先進的LLM，包括GPT-4-Turbo（80.88%），Claude-3-Opus（79.19%）和Gemini-1.5-Pro（74.59%）
RefuelLLM-2-small（79.67%）優於具有類似大小/推理成本的LLM，包括Claude-3-Sonnet（70.99%）、俳句（69.23%）和GPT-3.5-Turbo（68.13%）
與我們開始為上述每個模型（分別為Mixtral-8x 7 B、Llama 3 -8B）使用的基本LLM相比，我們看到質量有顯著提高。長上下文數據集

正如基準部分所述，我們包括一些專門用於評估長輸入上下文中LLM性能的數據集。

RefuelLLM-2是Mixtral-8x 7 B基本型號，本身支持最大輸入上下文長度32 K。RefuelLLM-2-small是Llama 3 -8B基本模型，支持最大輸入上下文長度8 K。
在兩種類型的輸入（4K和=4K輸入上下文）上，我們看到RefuelLLM-2的表現優於所有LLM。正如預期的那樣，我們確實看到所有LLM的長上下文輸入的性能顯著下降。

非公開數據集收件箱

如基準部分所述，我們在一系列非公開數據集上評估了所有LLM，涵蓋招聘、金融服務、STEM和電子商務等領域。這些數據集沒有用作Fuel-LLM 2模型系列的任何訓練或驗證拆分的一部分。雖然將這些納入基準會損害可重複性，但我們認為評估非公開、特定任務數據集的LLM以了解其在現實世界環境中的可靠性和質量至關重要。

在上面顯示的性能比較中，RefuelLLM-2的卓越質量得到了增強。此外，對於這兩個模型來說，與其各自的基本LLM相比，保留數據集的質量有所提高，這很好地表明了它們的概括能力。
‍‍

特定領域數據集

為了進一步了解模型在現實世界環境中的可靠性和質量，我們還報告了特定行業/問題領域的數據集的LLM質量。

我們觀察到，在各個垂直領域，與GPT-4、Turbo和Claude-3-Opus等目前最先進的LLM相比，Fuel-LLM-2在輸出質量方面具有競爭力或更優，尺寸不到型號的1/10。
‍
信心質量評分
根據我們對「置信度標籤」研究的理解，我們使用平均標籤生成概率作為啟發式來估計LLM輸出的置信度。為了衡量這些信心分數的質量，我們使用AUROC。AUROC是總分，衡量分類器在所有評分閾值上區分陽性類別（「LLM輸出正確」）和陰性類別（「LLM輸出不正確」）的能力：

我們觀察到RefuelLLM-2和RefuelLLM-2-small輸出的校準置信度評分遠好於GPT-4和Llama-3- 70 B。該領域之前的工作表明，基於RLHF的LLM後訓練可能會嚴重損害logprob校準。RL HF訓練過程可能會導致模型輸出分布和原始預訓練分布之間的KL偏差出現較大峰值。這可能會導致模型明顯偏離其原始的「世界先驗」，從而損害其準確估計概率的能力。請注意，Claude和Google提供的模型不支持返回代幣級別的日誌概率，因此沒有為它們分配分數。
‍

訓練和超參數

我們分兩個階段訓練模型。第一階段負責使模型善於執行數據標籤和豐富任務，而第二階段則幫助提高較長上下文示例的性能。兩個階段的訓練都是在8 xH100 80 GB圖形處理器集群上完成的。

階段1-這是模型大部分指令調整發生的階段。用於訓練的行的最大長度為4096個標籤。我們以21，000個步驟訓練模型，批量為32個。我們使用初始學習率為1 e-5的cos學習率調度器，衰減至其值的10%。
階段2-在此階段，我們向訓練集添加更長的上下文輸入，以進一步訓練模型。我們以額外的5 k步驟訓練模型，批量大小為16，並有2個梯度累積步驟。我們發現，該模型在此階段對學習率更加敏感，並使用了初始學習率為2 e-6的cos學習率調度器，該調度器會衰減到其值的10%。
‍

數據集

雖然在兩個階段中使用的例子的分布是不同的，但它們是從同一組超過2750個獨特的任務中抽樣的。我們的培訓系列主要包括：

手動注釋的數據集，例如Flan、TaskSource和Aya集合
OpenOrca、OpenHermes和Wizard LM等綜合數據集
由ReFuel開發或許可的專有數據集
‍
最終的指令優化數據集（在數據重複刪除、採樣和清理之後）由大約4B個令牌組成，分兩個階段。我們還利用多重包裝將多個序列包裝到一批中，以提高訓練吞吐量。
‍
‍視圖 https：//labs.refuel.ai/playground，用於針對其他人的互動遊樂場 LLM測試模型。
註冊Fuel Cloud以訪問模型並微調支持：https://www.refuel.ai/ https://www.refuel.ai/get-started
我們在CC BY-NC 4.0許可下開源RefuelLLM-2-small（又名Llama-3-Refueled）。模型權重可以在Hugging Face上找到：https://huggingface.co/refuelai/Llama-3-Refueled
‍

如果您想了解更多信息，可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

詳細居間：https://www.refuel.ai/blog-posts/announcing-refuel-llm-2
遊樂場：https://labs.refuel.ai/playground
型號下載：https://huggingface.co/refuelai/Llama-3-Refueled

輸油管：