Lior Alexander報導:AirLLM讓70B大型語言模型在4GB GPU上運行成為可能

AirLLM近期推出了一項記憶體優化的推論技術,讓70B的語言模型能夠在僅有4GB顯示記憶體的硬體上運行。這項技術的運作方式是逐層加載模型,具體流程為:加載一層 → 執行計算 → 釋放記憶體 → 加載下一層。這樣的設計顯著降低了GPU的記憶體使用量,並且可以在8GB顯示記憶體上運行405B的Llama 3.1模型。AirLLM的技術不需要進行量化,並提供了可選的4位或8位權重壓縮,保持了與Hugging Face Transformers相同的API,支持CPU和GPU推論,並兼容Linux和macOS的Apple Silicon系統。這使得用戶能夠在本地運行Llama、Qwen、Mistral和Mixtral等大型模型,無需依賴雲端GPU,為開發者在便宜硬體上進行原型開發提供了更多可能性。

來源:https://x.com/LiorOnAI/status/2014005554948047122