AirLLM：在小显存设备上运行超大模型

Watch this video on YouTube

AirLLM 是一款可在内存有限的电脑上运行超大型 AI 模型的工具。它采用智能的逐层加载技术，而非传统压缩方式。借助该工具，仅需 4GB 显存即可运行 700 亿参数的模型，甚至在 8GB 显存上运行 4050 亿参数的模型，且不会损失模型效果。
其优势在于：你无需昂贵的硬件升级，就能在平价设备上使用高性能 AI 模型。该工具还提供可选压缩功能，在保持精度不变的前提下，可将运行速度提升最高 3 倍。

在大语言模型越来越大的今天，一个现实问题越来越明显：

模型不贵，显卡很贵。

70B、180B、405B 级别的模型参数规模动辄数十 GB 显存需求。对大多数个人开发者来说，消费级 GPU 根本无法完整加载模型。传统解决方案通常有两种：

换更大的显卡
做量化压缩（4bit / 8bit）

但 AirLLM 走的是第三条路。

做的不是“压缩”，而是“改变加载方式”

AirLLM 的核心思想非常直接：

不一次性把整个模型加载进 GPU。

在传统推理框架中，模型权重会整体加载到显存中，然后开始前向计算。这意味着显存必须足够大，否则直接 OOM。

AirLLM 则采用逐层（block-wise / layer-wise）加载机制：

模型权重存储在磁盘或 CPU 内存
推理时只加载当前层到 GPU
当前层计算完成后立即释放
再加载下一层

GPU 只负责当前计算单元，而不是持有整个模型。

从工程角度看，它更像是把 Transformer 变成了“分页执行结构”。

这意味着什么？

意味着显存不再是唯一瓶颈。

理论上：

4GB 显存可以运行 70B 级模型
更大的模型也可以通过同样方式加载

但这里必须强调：

能运行 ≠ 流畅运行

由于需要频繁从磁盘读取权重，推理速度会明显慢于完整加载方式。系统瓶颈从 GPU 显存，转移到了：

磁盘 IO 速度（SSD 很关键）
CPU 内存容量
数据调度效率

它更像是“用 IO 换显存”。

和量化方案有什么区别？

量化的思路是：

降低参数精度
减少显存占用
提高推理速度

代价是可能有精度损失。

AirLLM 的思路是：

不改变模型参数
不降低精度
只改变加载机制

所以模型效果理论上不会下降。

它更适合那些：

想测试超大模型结构
想做研究验证
没有高端显卡但希望实验大模型

而不是用来部署高并发在线服务。

关于“405B 在 8GB 上运行”的现实

从技术上讲，只要支持分层加载，模型规模理论上不设上限。

但现实情况是：

模型文件体积巨大
CPU 内存占用极高
推理速度可能非常慢

因此更合理的理解是：

AirLLM 让“大模型可运行”，但不保证“可商用”。

它是一个工程思路上的突破，而不是性能上的奇迹。

真正价值

AirLLM 的意义不在于“替代高端 GPU”，而在于：

降低实验门槛
让更多人接触超大模型
为资源受限环境提供一种可行路径

在大模型生态逐渐集中于算力垄断的背景下，这种“结构性优化”思路，本身就是有价值的。

如果对本地大模型推理感兴趣，AirLLM 代表了一种值得研究的方向：

不是让模型变小，而是让模型“分段活下来”。

Github：https://github.com/lyogavin/airllm
油管：https://youtu.be/wfo49MrwsYg

Tags: github

做的不是“压缩”，而是“改变加载方式”

这意味着什么？

和量化方案有什么区别？

关于“405B 在 8GB 上运行”的现实

真正价值

分享此文：

Related Posts