原文請參閱下面的連結。本文主要翻譯原文
RefuelAI最近推出了大型語言模型RefuelLLM-2和RefuelLLM-2-small的兩個新版本。
RefuelLLM-2和RefuelLLM-2-small是專門為數據注釋、清理和豐富任務設計的語言模型。
目的:RefuelLLM-2主要用於自動化數據注釋、數據清理和數據豐富,這是處理和分析大規模數據集時的基本任務,尤其是在需要將非結構化數據轉換為結構化格式的場景中。
主要功能:
高性能數據注釋:該模型可以自動識別和標記數據中的關鍵信息,例如對數據進行分類、解析特定屬性等。
數據清理:自動識別和糾正數據中的錯誤或不一致,例如拼寫錯誤、格式問題等。
數據豐富:自動補充缺失的信息或基於現有數據提供額外上下文,以提高數據的價值和可用性。
高準確度:在大約30個數據注釋任務的基準測試中,RefuelLLM-2(83.82%)的表現優於所有最先進的LLM,包括GPT-4-Turbo(80.88%)、Claude-3-Opus(79.19%)和Gemini-1.5-Pro(74.59%)。
結果
基準數據集
與之前推出的ReFuel LLM相比,我們在基準測試中添加了10個數據集:
長上下文數據集:已添加Quality和NaturalQuestions等數據集,以專門評估具有長輸入上下文的任務的質量。
私人評估數據集:由於對數據(有效性)的擔憂,許多研究人員和從業者最近強調了僅對公共數據集(閱讀[1]、[2]、[3])污染評估LLM的局限性。為了測試LLM對現實世界數據標籤和豐富任務的概括和執行,我們還將非公共數據集添加到我們的基準中。
我們使用Autolabel,我們的LLM支持的數據標記的開源庫,運行本報告中的所有實驗。
質量
輸出質量衡量LLM生成的輸出與所提供的真實標籤的一致性。
在數據標籤和豐富性方面,RefuelLLM-2(83.82%)優於所有當前最先進的LLM,包括GPT-4-Turbo(80.88%),Claude-3-Opus(79.19%)和Gemini-1.5-Pro(74.59%)
RefuelLLM-2-small(79.67%)優於具有類似大小/推理成本的LLM,包括Claude-3-Sonnet(70.99%)、俳句(69.23%)和GPT-3.5-Turbo(68.13%)
與我們開始為上述每個模型(分別為Mixtral-8x 7 B、Llama 3 -8B)使用的基本LLM相比,我們看到質量有顯著提高。長上下文數據集
正如基準部分所述,我們包括一些專門用於評估長輸入上下文中LLM性能的數據集。
RefuelLLM-2是Mixtral-8x 7 B基本型號,本身支持最大輸入上下文長度32 K。RefuelLLM-2-small是Llama 3 -8B基本模型,支持最大輸入上下文長度8 K。
在兩種類型的輸入(4K和=4K輸入上下文)上,我們看到RefuelLLM-2的表現優於所有LLM。正如預期的那樣,我們確實看到所有LLM的長上下文輸入的性能顯著下降。
非公開數據集收件箱
如基準部分所述,我們在一系列非公開數據集上評估了所有LLM,涵蓋招聘、金融服務、STEM和電子商務等領域。這些數據集沒有用作Fuel-LLM 2模型系列的任何訓練或驗證拆分的一部分。雖然將這些納入基準會損害可重複性,但我們認為評估非公開、特定任務數據集的LLM以了解其在現實世界環境中的可靠性和質量至關重要。
在上面顯示的性能比較中,RefuelLLM-2的卓越質量得到了增強。此外,對於這兩個模型來說,與其各自的基本LLM相比,保留數據集的質量有所提高,這很好地表明了它們的概括能力。
特定領域數據集
為了進一步了解模型在現實世界環境中的可靠性和質量,我們還報告了特定行業/問題領域的數據集的LLM質量。
我們觀察到,在各個垂直領域,與GPT-4、Turbo和Claude-3-Opus等目前最先進的LLM相比,Fuel-LLM-2在輸出質量方面具有競爭力或更優,尺寸不到型號的1/10。
信心質量評分
根據我們對「置信度標籤」研究的理解,我們使用平均標籤生成概率作為啟發式來估計LLM輸出的置信度。為了衡量這些信心分數的質量,我們使用AUROC。AUROC是總分,衡量分類器在所有評分閾值上區分陽性類別(「LLM輸出正確」)和陰性類別(「LLM輸出不正確」)的能力:
我們觀察到RefuelLLM-2和RefuelLLM-2-small輸出的校準置信度評分遠好於GPT-4和Llama-3- 70 B。該領域之前的工作表明,基於RLHF的LLM後訓練可能會嚴重損害logprob校準。RL HF訓練過程可能會導致模型輸出分布和原始預訓練分布之間的KL偏差出現較大峰值。這可能會導致模型明顯偏離其原始的「世界先驗」,從而損害其準確估計概率的能力。請注意,Claude和Google提供的模型不支持返回代幣級別的日誌概率,因此沒有為它們分配分數。
訓練和超參數
我們分兩個階段訓練模型。第一階段負責使模型善於執行數據標籤和豐富任務,而第二階段則幫助提高較長上下文示例的性能。兩個階段的訓練都是在8 xH100 80 GB圖形處理器集群上完成的。
階段1-這是模型大部分指令調整發生的階段。用於訓練的行的最大長度為4096個標籤。我們以21,000個步驟訓練模型,批量為32個。我們使用初始學習率為1 e-5的cos學習率調度器,衰減至其值的10%。
階段2-在此階段,我們向訓練集添加更長的上下文輸入,以進一步訓練模型。我們以額外的5 k步驟訓練模型,批量大小為16,並有2個梯度累積步驟。我們發現,該模型在此階段對學習率更加敏感,並使用了初始學習率為2 e-6的cos學習率調度器,該調度器會衰減到其值的10%。
數據集
雖然在兩個階段中使用的例子的分布是不同的,但它們是從同一組超過2750個獨特的任務中抽樣的。我們的培訓系列主要包括:
手動注釋的數據集,例如Flan、TaskSource和Aya集合
OpenOrca、OpenHermes和Wizard LM等綜合數據集
由ReFuel開發或許可的專有數據集
最終的指令優化數據集(在數據重複刪除、採樣和清理之後)由大約4B個令牌組成,分兩個階段。我們還利用多重包裝將多個序列包裝到一批中,以提高訓練吞吐量。
視圖 https://labs.refuel.ai/playground,用於針對其他人的互動遊樂場 LLM測試模型。
註冊Fuel Cloud以訪問模型並微調支持:https://www.refuel.ai/ https://www.refuel.ai/get-started
我們在CC BY-NC 4.0許可下開源RefuelLLM-2-small(又名Llama-3-Refueled)。模型權重可以在Hugging Face上找到:https://huggingface.co/refuelai/Llama-3-Refueled
如果您想了解更多信息,可以單擊視頻下方的連結。
感謝您觀看此視頻。如果您喜歡,請訂閱並點讚。謝謝
詳細居間:https://www.refuel.ai/blog-posts/announcing-refuel-llm-2
遊樂場:https://labs.refuel.ai/playground
型號下載:https://huggingface.co/refuelai/Llama-3-Refueled
輸油管: