繁中

修補匠食譜:4個最核心的培訓例子

您可以使用Tinker和Tinker Cookbook輕鬆微調大型語言模型(LLM),以滿足您的特定需求,而無需管理複雜的培訓基礎設施。Tinker負責分布式培訓並使用高效的LoRA適配器來降低成本並加快定製速度。Cookbook為聊天、數學推理和強化學習等任務提供了現成的示例和工具,幫助您快速構建和改進人工智慧模型。

基於 思考機器實驗室/修補鍋食譜 存儲庫中,本文選擇了四個最基本、最重要、最有幫助的例子,這四個例子對理解Tinker培訓理念:
SL循環、RL循環、SL Basic、RL Basic

Tinker是一個輕量級但功能強大的框架,用於模型訓練和微調,強調 「透明的訓練循環」 和 「可配置的培訓流程」.
如果您想真正了解LLM是如何訓練的,這四個例子足以作為切入點。

1. sl_loop.py:從頭開始編寫監督學習(SL)訓練循環

路徑:
tinker_cookbook/recipes/sl_loop.py

為什麼這個例子很重要?

它顯示了訓練 最純粹的循環 形式,沒有任何魔法,沒有隱藏的邏輯,只有這樣的幾件事:

  • 正演計算
  • 計算損失
  • 落後
  • 優化器更新(步驟)
  • 保存狀態(Save_State)

換句話說,這是您在PyTorch中手工編寫的最小訓練代碼的Tinker版本。

這個例子是給誰的?

  • 我想看看 修補匠概括了訓練循環
  • 想要了解培訓過程背後最現實的運作方式
  • 想要擴大損失、指標、日誌的開發人員自己

這個例子非常「原創」,但因此是最有教育意義的。

2. rl_loop.py:從頭開始編寫強化學習(RL)訓練循環

路徑:
tinker_cookbook/recipes/rl_loop.py

為什麼這個例子很重要?

強化學習(RL)通常是微調語言模型的關鍵部分,例如:

  • 改善模型對齊
  • 優化模型響應的質量
  • 使模型更好地按照指令輸出

在這個示例中,您可以看到一個簡單但完整的RL循環,其中包括:

  • 樣品
  • 計算獎勵
  • 策略更新

這是SFT & WLHF或「監督微調&增強微調」結構的必須理解的部分。

這個例子可以幫助您:

  • 了解HLHF的低級邏輯
  • 了解策略疊代和回報建模的基本概念
  • 為PPO等更複雜的RL培訓奠定基礎

3. sl_basic.py:通過配置完成有監督的微調過程

路徑:
tinker_cookbook/recipes/sl_basic.py

要點:從「筆跡」到「陳述性訓練」

 sl_loop.py 如果是「自己寫訓練周期」,
 sl_basic.py 那麼就是:

你只需要寫一個配置,Tinker就會自動完成訓練。

這也是Tinker的核心設計理念:

  • 培訓流程可讀
  • 訓練步驟是分開的
  • 通過統一的Runner控制整個生命周期

在這個例子中,您可以看到:

  • 如何定義數據集
  • 如何加載標記器和模型
  • 如何設置訓練參數(批次、LR、epochs)
  • 如何運行和保存結果

這更像是您在項目中實際使用的培訓方法。

4. rl_basic.py:聲明性強化學習訓練過程

路徑:
tinker_cookbook/recipes/rl_basic.py

該示例類似於 sl_basic.py 但表明:

如何通過「配置」完成強化學習訓練(例如獎勵策略優化)。

 rl_loop.py 與手寫循環相比,該版本顯示:

  • 如何定義RL的政策
  • 如何設置獎勵功能/抽樣策略
  • 如何配置疊代的步驟數
  • 如何使用Runner順利運行整個RL流程

您可以將其視為 RL培訓的實用版本,更接近實際項目。

四個例子之間的關係(一句話總結)

  • sl_loop.py:最小的SFT訓練循環(完全手寫)
  • rl_loop.py:最小RL循環(完全手寫)
  • sl_basic.py:聲明性/自動SFT(適用於實際項目)
  • rl_basic.py:聲明性/自動RL(將其用於實際RL)

如果您想了解路線,我建議遵循以下順序:

1 - 2(首先了解底層邏輯)

3 - 4(重新學習自動化培訓方法)

這樣,您對模型訓練的理解就是「自下而上」的。

總結

《Tinker Cookbook》中的這四個例子構成了極簡主義但完整的模型訓練框架的核心:

例如類型困難用途:
sl_loop.pySL手寫循環⭐⭐了解低級培訓流程
rl_loop.pyRL手寫循環⭐⭐⭐了解RL HF基礎知識
sl_basic.pySL聲明培訓實際項目推薦
rl_basic.pyRL陳述性培訓⭐⭐實用RL微調

如果您將來想自己訓練和微調模型,這四個例子幾乎是「必修的」。

GitHub:https://github.com/thinking-machines-lab/tinker-cookbook
管材:

返回頂端