AirLLM 是一款可在内存有限的电脑上运行超大型 AI 模型的工具。它采用智能的逐层加载技术,而非传统压缩方式。借助该工具,仅需 4GB 显存即可运行 700 亿参数的模型,甚至在 8GB 显存上运行 4050 亿参数的模型,且不会损失模型效果。
其优势在于:你无需昂贵的硬件升级,就能在平价设备上使用高性能 AI 模型。该工具还提供可选压缩功能,在保持精度不变的前提下,可将运行速度提升最高 3 倍。
在大语言模型越来越大的今天,一个现实问题越来越明显:
模型不贵,显卡很贵。
70B、180B、405B 级别的模型参数规模动辄数十 GB 显存需求。对大多数个人开发者来说,消费级 GPU 根本无法完整加载模型。传统解决方案通常有两种:
- 换更大的显卡
- 做量化压缩(4bit / 8bit)
但 AirLLM 走的是第三条路。
做的不是“压缩”,而是“改变加载方式”
AirLLM 的核心思想非常直接:
不一次性把整个模型加载进 GPU。
在传统推理框架中,模型权重会整体加载到显存中,然后开始前向计算。这意味着显存必须足够大,否则直接 OOM。
AirLLM 则采用逐层(block-wise / layer-wise)加载机制:
- 模型权重存储在磁盘或 CPU 内存
- 推理时只加载当前层到 GPU
- 当前层计算完成后立即释放
- 再加载下一层
GPU 只负责当前计算单元,而不是持有整个模型。
从工程角度看,它更像是把 Transformer 变成了“分页执行结构”。
这意味着什么?
意味着显存不再是唯一瓶颈。
理论上:
- 4GB 显存可以运行 70B 级模型
- 更大的模型也可以通过同样方式加载
但这里必须强调:
能运行 ≠ 流畅运行
由于需要频繁从磁盘读取权重,推理速度会明显慢于完整加载方式。系统瓶颈从 GPU 显存,转移到了:
- 磁盘 IO 速度(SSD 很关键)
- CPU 内存容量
- 数据调度效率
它更像是“用 IO 换显存”。
和量化方案有什么区别?
量化的思路是:
- 降低参数精度
- 减少显存占用
- 提高推理速度
代价是可能有精度损失。
AirLLM 的思路是:
- 不改变模型参数
- 不降低精度
- 只改变加载机制
所以模型效果理论上不会下降。
它更适合那些:
- 想测试超大模型结构
- 想做研究验证
- 没有高端显卡但希望实验大模型
而不是用来部署高并发在线服务。
关于“405B 在 8GB 上运行”的现实
从技术上讲,只要支持分层加载,模型规模理论上不设上限。
但现实情况是:
- 模型文件体积巨大
- CPU 内存占用极高
- 推理速度可能非常慢
因此更合理的理解是:
AirLLM 让“大模型可运行”,但不保证“可商用”。
它是一个工程思路上的突破,而不是性能上的奇迹。
真正价值
AirLLM 的意义不在于“替代高端 GPU”,而在于:
- 降低实验门槛
- 让更多人接触超大模型
- 为资源受限环境提供一种可行路径
在大模型生态逐渐集中于算力垄断的背景下,这种“结构性优化”思路,本身就是有价值的。
如果对本地大模型推理感兴趣,AirLLM 代表了一种值得研究的方向:
不是让模型变小,而是让模型“分段活下来”。
Github:https://github.com/lyogavin/airllm
油管:https://youtu.be/wfo49MrwsYg