연구2026년 6월 4일 AM 05:05

70B 모델을 4GB GPU로 추론하는 오픈소스 'AirLLM' 깃허브서 주목

개발자 개빈 리(Gavin Li, 깃허브 계정 lyogavin)가 만든 오픈소스 프로젝트 'AirLLM'이 깃허브 트렌딩에 올랐다. AirLLM은 추론 단계의 메모리 사용을 최적화해, 양자화·증류·가지치기 없이도 700억(70B) 파라미터 대형 언어모델을 단일 4GB GPU 카드에서 추론할 수 있게 해준다. 4050억(405B) 파라미터의 라마3.1도 8GB VRAM에서 실행할 수 있다고 소개한다.

작동 원리는 모델을 계층(layer) 단위로 다루는 데 있다. 추론 시 원본 모델을 먼저 계층별로 분해해 저장한 뒤, 계층 단위로 순차 로딩한다. 이 때문에 모델 분해 과정에서 허깅페이스 캐시 디렉터리에 충분한 디스크 공간이 필요하다고 안내한다.

사용법은 일반 트랜스포머 모델과 비슷하다. pip install airllm으로 설치한 뒤, AutoModel.from_pretrained에 사용할 모델의 허깅페이스 저장소 ID나 로컬 경로를 넘기면 추론을 수행할 수 있다.

여기에 블록 단위 양자화 기반 모델 압축 기능이 더해졌다. 이 압축은 추론 속도를 최대 3배까지 높이면서 정확도 손실은 거의 무시할 만한 수준이라고 설명한다. bitsandbytes를 설치하고 airllm 2.0.0 이상에서 모델 초기화 시 compression 인자에 '4bit' 또는 '8bit'를 넘기면 된다.

개발자는 이 방식이 가능한 이유를 이렇게 설명한다. 일반적인 양자화는 속도를 내려면 가중치와 활성값을 모두 양자화해야 해 정확도를 유지하고 입력별 이상치 영향을 피하기 어렵다. 반면 AirLLM은 병목이 주로 디스크 로딩에 있어 모델 로딩 크기만 줄이면 되므로, 가중치만 양자화해 정확도를 지키기 쉽다는 것이다.

초기화 시 여러 설정도 지원한다. 시간 소비를 출력하는 profiling_mode, 분해된 모델을 다른 경로에 저장하는 layer_shards_saving_path, 게이트된 모델 다운로드용 hf_token, 모델 로딩과 연산을 겹쳐 처리하는 prefetching(기본 켜짐), 디스크가 부족할 때 원본 모델을 지워 디스크를 절반 아끼는 delete_original 등이다.

실행 환경으로는 애플 실리콘 맥OS(mlx와 torch 설치 필요)와 CPU 추론, 비샤딩 모델을 지원한다. 지원 모델은 라마3·라마3.1, Qwen2.5, Mixtral, ChatGLM, QWen, Baichuan, Mistral, InternLM 등으로 폭넓다.

버전 이력을 보면 v2.5에서 모델 로딩과 연산을 겹치는 프리페칭으로 10%의 속도 개선을 이뤘고, 2024년 7월 30일 405B 라마3.1과 8비트·4비트 양자화를 지원했으며, 2024년 8월 20일 v2.11.0에서 Qwen2.5 지원을 추가했다. 상당수 코드는 캐글 시험 대회에서 나온 SimJeg의 작업에 기반한다고 밝혔다.

70B 모델을 4GB GPU로 추론하는 오픈소스 'AirLLM' 깃허브서 주목

관련 기사