AirLLM:在小显存设备上运行超大模型

AirLLM 是一款可在内存有限的电脑上运行超大型 AI 模型的工具。它采用智能的逐层加载技术,而非传统压缩方式。借助该工具,仅需 4GB 显存即可运行 700 亿参数的模型,甚至在 8GB 显存上运行 4050 亿参数的模型,且不会损失模型效果。
其优势在于:你无需昂贵的硬件升级,就能在平价设备上使用高性能 AI 模型。该工具还提供可选压缩功能,在保持精度不变的前提下,可将运行速度提升最高 3 倍。

在大语言模型越来越大的今天,一个现实问题越来越明显:

模型不贵,显卡很贵。

70B、180B、405B 级别的模型参数规模动辄数十 GB 显存需求。对大多数个人开发者来说,消费级 GPU 根本无法完整加载模型。传统解决方案通常有两种:

  • 换更大的显卡
  • 做量化压缩(4bit / 8bit)

但 AirLLM 走的是第三条路。

做的不是“压缩”,而是“改变加载方式”

AirLLM 的核心思想非常直接:

不一次性把整个模型加载进 GPU。

在传统推理框架中,模型权重会整体加载到显存中,然后开始前向计算。这意味着显存必须足够大,否则直接 OOM。

AirLLM 则采用逐层(block-wise / layer-wise)加载机制:

  • 模型权重存储在磁盘或 CPU 内存
  • 推理时只加载当前层到 GPU
  • 当前层计算完成后立即释放
  • 再加载下一层

GPU 只负责当前计算单元,而不是持有整个模型。

从工程角度看,它更像是把 Transformer 变成了“分页执行结构”。

这意味着什么?

意味着显存不再是唯一瓶颈。

理论上:

  • 4GB 显存可以运行 70B 级模型
  • 更大的模型也可以通过同样方式加载

但这里必须强调:

能运行 ≠ 流畅运行

由于需要频繁从磁盘读取权重,推理速度会明显慢于完整加载方式。系统瓶颈从 GPU 显存,转移到了:

  • 磁盘 IO 速度(SSD 很关键)
  • CPU 内存容量
  • 数据调度效率

它更像是“用 IO 换显存”。

和量化方案有什么区别?

量化的思路是:

  • 降低参数精度
  • 减少显存占用
  • 提高推理速度

代价是可能有精度损失。

AirLLM 的思路是:

  • 不改变模型参数
  • 不降低精度
  • 只改变加载机制

所以模型效果理论上不会下降。

它更适合那些:

  • 想测试超大模型结构
  • 想做研究验证
  • 没有高端显卡但希望实验大模型

而不是用来部署高并发在线服务。

关于“405B 在 8GB 上运行”的现实

从技术上讲,只要支持分层加载,模型规模理论上不设上限。

但现实情况是:

  • 模型文件体积巨大
  • CPU 内存占用极高
  • 推理速度可能非常慢

因此更合理的理解是:

AirLLM 让“大模型可运行”,但不保证“可商用”。

它是一个工程思路上的突破,而不是性能上的奇迹。

真正价值

AirLLM 的意义不在于“替代高端 GPU”,而在于:

  • 降低实验门槛
  • 让更多人接触超大模型
  • 为资源受限环境提供一种可行路径

在大模型生态逐渐集中于算力垄断的背景下,这种“结构性优化”思路,本身就是有价值的。

如果对本地大模型推理感兴趣,AirLLM 代表了一种值得研究的方向:

不是让模型变小,而是让模型“分段活下来”。

Github:https://github.com/lyogavin/airllm
油管:https://youtu.be/wfo49MrwsYg

Scroll to Top