Yandex推出YaFSDP：

以下內容摘自原文：

一款開源人工智慧工具，承諾通過減少20%的圖形處理器使用量來徹底改變LLM培訓
開發大型語言模型需要投入大量的時間和圖形處理器資源，這直接導致成本高昂。模型越大，這些挑戰就越明顯。

最近，Yandex推出了一款新解決方案：YaFSDP，這是一款開源工具，承諾通過顯著減少圖形處理器資源消耗和訓練時間來徹底改變LLM訓練。在700億參數模型的預訓練場景中，使用YaFSDP可以節省大約150個圖形處理器。這意味著每月可能節省約0.5至150萬美金，具體取決於虛擬圖形處理器提供商或平台。

Yandex已在GitHub上公開提供YaFSDP。機器學習工程師可以使用該工具來提高LLM培訓過程的效率。通過開源YaFSDP，Yandex旨在促進人工智慧社區的創新和協作，使開發人員能夠更快、更經濟地訓練模型。

分布式LLM培訓的挑戰

在多個GPU上訓練LLM涉及複雜的操作，導致效率低下和內存消耗高。其中一個主要問題是需要在GPU之間發送和接收大量數據。例如，在一個典型的all_reduce操作中，必須傳遞兩倍的梯度數據量作為網絡參數。對於Llama 70B型號，這意味著每次疊代傳輸280 GB的數據。

此外，權重、梯度和優化器狀態在圖形處理器之間重複，導致巨大的內存負載。Llama 70 B模型和Adam優化器需要超過1 TB的內存，遠遠超過大多數圖形處理器典型的80 GB內存容量。這種冗餘會嚴重減慢訓練過程，並且通常使將中等大小的模型放入到圖形處理器內存中變得不切實際。

YaFSDP簡介

Yandex的YaFSDP為這些挑戰提供了高效的解決方案。YaFSDP通過專注於優化內存消耗和消除通信瓶頸來提高LLM培訓的效率。它通過切片層而不是單個參數來工作，保持高效通信並避免冗餘操作。此外，YaFSDP為所有所需數據預分配緩衝區，確保Torch分配器不會導致效率低下。

YaFSDP通過利用兩個緩衝區來實現中間權重和梯度，一個緩衝區用於奇數層，另一個緩衝區用於偶數層。

如果您想了解更多信息，可以點擊視頻下方的原始連結。
感謝您觀看此視頻。如果您喜歡，請訂閱並點讚。謝謝

全文： https://marktechpost.com/2024/06/14/yandex-introduces-yafsdp-an-open-source-ai-tool-that-promises-to-revolutionize-llm-training-by-cutting-gpu-usage-by-20/
GitHub頁面： https://github.com/yandex/YaFSDP? tab= readme-over-file

輸油管：