Slime是一個高性能框架,專為大型語言模型(LLM)訓練完成後的強化學習(RL)調優場景而設計。它開放了Megatron(高效訓練引擎)和SGLang(數據生成工具)的能力,並為GLM-4.7、Qwen 3、DeepSeek V3和Llama 3等頂級機型提供底層支持。
通過此框架,您可以構建高效、靈活的強化學習工作流程。其內置的可定製數據工具可以有效縮短訓練時間並提高模型準確性。它既適合科學研究場景,又適合生產環境;還可以節省計算能力資源,幫助在物理領域、代理開發、代碼生成等方面取得突破性成果。
如果我們為當前大模式的發展畫一條簡單的界限,就會發現差距真正拉開的階段不再是「訓練前」,而是「訓練後」。模型本身的規模越來越接近,真正決定能力上限的是訓練後階段--尤其是強化學習(RL)水平。THUDM推出的粘液就是圍繞這一階段構建的工程框架。
它不是常識上的「人工智慧應用工具」,也不是簡單的數據生成腳本集合。Slime更像是一個破碎的管道,連接著大型模型後訓練中最關鍵的事情:數據來自哪裡、如何高效生成數據、如何參與訓練以及如何在循環中不斷提高模型能力。很多人乍一看會認為它就像一個「數據生成工具」,但如果就此止步,我們實際上會低估它的定位。
在斯利姆的設計中,數據不是獨立的資產,而是訓練過程的一部分。通過連接Megatron等高性能分布式訓練引擎和SGLang等高效推理和生成工具,它建立了一個閉環:模型生成數據,通過篩選或獎勵機制進行訓練,反過來提高模型能力,然後生成更高質量的數據。這個周期本身就是所謂RL擴展的核心。
正因為如此,粘液似乎同時具有兩種「品質」。一方面,它確實提供了非常靈活的數據生成能力,允許您定製管道、構建不同類型的訓練數據,甚至通過基於伺服器的方法擴展生成能力;另一方面,這些能力不僅僅是為了「生成數據」,而是服務於訓練後階段的強化學習過程。換句話說,它不會將數據移交給其他系統進行訓練,而是直接將數據生成嵌入到訓練系統中。
這種設計帶來的變化在工程層面上非常直接。在傳統流程中,數據、培訓和評估通常是去中心化的,但slick更像是試圖將這些連結重新組合到一個統一的框架中。其結果不僅是「更方便」,而且還賦予了模型不斷改進自身的能力:數據不再是一次性資源,而是可以隨著時間的推移利用模型的能力進行疊代。
對於那些常見的描述,例如「支持GLM、Qwen、DeepSeek、Llama等模型」,更合理的理解是它有能力適應主流的大型模型系統,而不是這些模型「基於它而構建」。「同樣,『提高準確性、節省計算能力』這些術語本質上是對這種閉環訓練方法的面向結果的描述,而不是框架本身提供的直接保證。
如果一定要用一句話來概括粘液,那麼更接近其實際定位的表達應該是:它是一個圍繞大模型的後訓練階段構建的系統,將數據生成與強化學習訓練集成起來,並使用工程方法。支持模型能力的持續提升。與其說「製造一個更聰明的模型」,不如說是解決另一個問題--如何讓模型繼續變得更聰明。
Github:https://github.com/THUDM/slime
輸油管: