AirLLM：在小內存設備上卸載超大型號

AirLLM是一種可以在內存有限的計算機上運行非常大的人工智慧模型的工具。它使用智能分層加載技術，而不是傳統的壓縮。使用此工具，您可以在僅4GB視頻內存的情況下運行具有700億個參數的模型，甚至可以在8 GB視頻內存上運行具有4050億個參數的模型，而不會損失模型性能。
優點是，您可以在經濟實惠的設備上使用高性能人工智慧模型，而無需進行昂貴的硬體升級。該工具還提供可選壓縮功能，可在保持準確性的同時加速至3倍。

如今，隨著大型語言模型變得越來越大，一個實際問題變得越來越明顯：

型號不貴，圖形卡貴。

70 B、180 B和405 B級別的參數規模通常需要數十GB的視頻內存。對於大多數個人開發人員來說，消費級圖形處理器根本無法完全加載該模型。傳統解決方案通常有兩種：

換成更大的圖形卡
量化壓縮（4位/8位）

但 AirLLM 走第三條路。

所做的不是「壓縮」，而是「改變加載方式」

AirLLM的核心理念很簡單：

不要立即將整個模型加載到圖形處理器中。

在傳統的推理框架中，模型權重作為一個整體加載到存儲器中，然後開始向前計算。這意味著視頻內存必須足夠大或直接OOM。

AirLLM使用逐塊（逐層）加載機制：

模型權重存儲在磁碟或中央處理器存儲器中
推理時僅將當前層加載到圖形處理器
當前層計算完成後立即發布
加載下一層

圖形處理器僅負責當前的計算單元，而不負責整個模型。

從工程的角度來看，這更像是將Transformer變成「帶頁面的執行結構」。

這是什麼意思？

這意味著視頻內存不再是唯一的瓶頸。

理論上：

4GB內存可運行70 B級型號
更大的型號也可以以相同的方式加載

但在這裡必須強調：

能夠正常運行

由於頻繁從磁碟讀取權重，推斷速度明顯比完全加載慢。系統瓶頸已從圖形處理器內存轉移到：

磁碟IO速度（SSD至關重要）
中央處理器內存容量
數據調度效率

它更像是「視頻內存的IO」。

它和定量解決方案有什麼區別？

量化的想法是：

降低參數準確性
減少視頻內存使用
提高推理速度

代價是準確性的潛在損失。

AirLLM的理念是：

不要更改模型參數
準確性不會損失
僅改變加載機制

所以理論上模型效應不會減弱。

它更適合：

想要測試一個非常大的模型的結構
我要做研究驗證
沒有高端顯卡但希望試驗大型機型

而不是部署高度並發的在線服務。

關於「405 B在8 GB上運行」的現實

從技術上講，只要支持分層加載，模型的大小理論上沒有上限。

但現實是：

模型文件很大
中央處理器內存使用率極高
推理可能非常緩慢

因此，更合理的理解是：

AirLLM使「大型型號可運行」，但不保證「商業用途」。

這是工程上的突破，而不是性能奇蹟。

實際價值

AirLLM不是為了「取代高端圖形處理器」，而是為了：

降低實驗門檻
為超大型號帶來更多人
為資源有限的環境提供可行的途徑

在大機型生態逐漸集中於算力壟斷的背景下，這種"結構優化"的思路本身就很有價值。

如果您對局部大模型推斷感興趣，AirLLM代表了一個值得研究的方向：

不是讓模型變得更小，而是讓模型「在細分市場中生存」。

Github：https://github.com/lyogavin/airllm
管材：