Slime讓大模特「更強」的後培訓體系

Slime是一個高性能框架，專為大型語言模型（LLM）訓練完成後的強化學習（RL）調優場景而設計。它開放了Megatron（高效訓練引擎）和SGLang（數據生成工具）的能力，並為GLM-4.7、Qwen 3、DeepSeek V3和Llama 3等頂級機型提供底層支持。
通過此框架，您可以構建高效、靈活的強化學習工作流程。其內置的可定製數據工具可以有效縮短訓練時間並提高模型準確性。它既適合科學研究場景，又適合生產環境;還可以節省計算能力資源，幫助在物理領域、代理開發、代碼生成等方面取得突破性成果。

如果我們為當前大模式的發展畫一條簡單的界限，就會發現差距真正拉開的階段不再是「訓練前」，而是「訓練後」。模型本身的規模越來越接近，真正決定能力上限的是訓練後階段--尤其是強化學習（RL）水平。THUDM推出的粘液就是圍繞這一階段構建的工程框架。

它不是常識上的「人工智慧應用工具」，也不是簡單的數據生成腳本集合。Slime更像是一個破碎的管道，連接著大型模型後訓練中最關鍵的事情：數據來自哪裡、如何高效生成數據、如何參與訓練以及如何在循環中不斷提高模型能力。很多人乍一看會認為它就像一個「數據生成工具」，但如果就此止步，我們實際上會低估它的定位。

在斯利姆的設計中，數據不是獨立的資產，而是訓練過程的一部分。通過連接Megatron等高性能分布式訓練引擎和SGLang等高效推理和生成工具，它建立了一個閉環：模型生成數據，通過篩選或獎勵機制進行訓練，反過來提高模型能力，然後生成更高質量的數據。這個周期本身就是所謂RL擴展的核心。

正因為如此，粘液似乎同時具有兩種「品質」。一方面，它確實提供了非常靈活的數據生成能力，允許您定製管道、構建不同類型的訓練數據，甚至通過基於伺服器的方法擴展生成能力;另一方面，這些能力不僅僅是為了「生成數據」，而是服務於訓練後階段的強化學習過程。換句話說，它不會將數據移交給其他系統進行訓練，而是直接將數據生成嵌入到訓練系統中。

這種設計帶來的變化在工程層面上非常直接。在傳統流程中，數據、培訓和評估通常是去中心化的，但slick更像是試圖將這些連結重新組合到一個統一的框架中。其結果不僅是「更方便」，而且還賦予了模型不斷改進自身的能力：數據不再是一次性資源，而是可以隨著時間的推移利用模型的能力進行疊代。

對於那些常見的描述，例如「支持GLM、Qwen、DeepSeek、Llama等模型」，更合理的理解是它有能力適應主流的大型模型系統，而不是這些模型「基於它而構建」。「同樣，『提高準確性、節省計算能力』這些術語本質上是對這種閉環訓練方法的面向結果的描述，而不是框架本身提供的直接保證。

如果一定要用一句話來概括粘液，那麼更接近其實際定位的表達應該是：它是一個圍繞大模型的後訓練階段構建的系統，將數據生成與強化學習訓練集成起來，並使用工程方法。支持模型能力的持續提升。與其說「製造一個更聰明的模型」，不如說是解決另一個問題--如何讓模型繼續變得更聰明。

Github：https://github.com/THUDM/slime
輸油管：