제품2026년 4월 1일 AM 08:54

올라마 MLX 지원 시작 — 맥북 로컬 LLM 성능 비교, 설치 방법, 벤치마크 총정리

로컬 대형 언어 모델(LLM) 실행 런타임인 올라마(Ollama)가 애플의 오픈소스 머신러닝 프레임워크 MLX를 지원한다고 발표했다. 이번 업데이트는 올라마 0.19 프리뷰 버전에서 사용할 수 있다.

MLX 지원과 함께 올라마는 캐싱 성능을 개선하고, 엔비디아의 NVFP4 포맷을 통한 모델 압축도 지원하게 되었다. 이를 통해 특정 모델에서 훨씬 효율적인 메모리 사용이 가능해졌다.

이러한 개선 사항들을 종합하면, 애플 실리콘 칩(M1 이상)을 탑재한 맥에서 상당히 향상된 성능을 기대할 수 있다. 현재 MLX 지원 모델은 알리바바의 Qwen3.5 350억 파라미터 모델 하나에 한정되어 있다.

하드웨어 요구 사항도 까다로운 편이다. 올라마에 따르면 애플 실리콘 맥과 최소 32GB RAM이 필요하다.

이번 발표의 시기는 로컬 AI 모델에 대한 관심이 급증하고 있는 시점과 맞물린다. 최근 GitHub에서 30만 개 이상의 스타를 기록한 오픈클로(OpenClaw)의 인기가 주목받고 있으며, 몰트북(Moltbook) 실험과 함께 특히 중국에서 큰 반향을 일으켰다.

또한 개발자들이 클로드 코드(Claude Code)나 ChatGPT 코덱스(Codex) 같은 최상위 도구들의 요금과 사용량 제한에 불만을 갖게 되면서, 로컬 코딩 모델에 대한 실험이 활발해지고 있다.

올라마는 최근 비주얼 스튜디오 코드 통합도 확대한 바 있어, 개발자 생태계에서의 영향력을 더욱 넓히고 있다.

올라마 MLX 벤치마크 — 얼마나 빨라졌나

올라마 공식 블로그에 따르면, MLX 백엔드 전환 시 애플 실리콘 맥에서의 성능 향상이 뚜렷하다. Qwen3.5 35B 모델 기준으로 프리필(prefill) 속도는 초당 1,154토큰에서 1,810토큰으로, 디코드(decode) 속도는 초당 58토큰에서 112토큰으로 향상되었다. 디코드 속도 기준으로 약 93%의 성능 향상이다.

다만 이 수치는 고사양 맥 환경에서의 결과이며, M1이나 M2 칩에서는 향상 폭이 다를 수 있다. 유니파이드 메모리 용량이 클수록 대형 모델 실행 시 이점이 크다.

ollama vs llama.cpp vs vLLM-MLX — 맥 로컬 LLM 프레임워크 비교

맥에서 로컬 LLM을 실행하는 주요 프레임워크는 세 가지다.

올라마(Ollama)는 설치와 사용이 가장 간편하다. 커맨드 한 줄로 모델을 다운로드하고 실행할 수 있어 입문자에게 적합하다. 이번 MLX 지원으로 맥에서의 성능도 크게 개선되었다.

llama.cpp는 가장 오래된 로컬 실행 프레임워크로, CPU와 GPU를 모두 활용할 수 있고 지원 모델이 가장 다양하다. 다만 설정이 다소 복잡하고, 맥 환경에서는 MLX 기반 도구보다 속도가 느린 경우가 많다.

vLLM-MLX는 애플 MLX에 최적화된 고성능 추론 엔진으로, 벤치마크에서 가장 빠른 속도를 보여주지만 설정 난이도가 높아 개발자 대상이다.

맥북에서 올라마 MLX 설치하는 방법

올라마 MLX를 사용하려면 먼저 올라마 0.19 프리뷰 버전을 설치해야 한다. 터미널에서 ollama --version으로 현재 버전을 확인하고, 공식 사이트(ollama.com)에서 프리뷰 빌드를 다운로드하면 된다.

설치 후 MLX 백엔드로 모델을 실행하려면 ollama run qwen3.5:35b-mlx 명령어를 사용한다. 현재 MLX 지원 모델은 Qwen3.5 35B에 한정되어 있으며, 향후 더 많은 모델이 추가될 예정이다.

최소 요구 사양: 애플 실리콘(M1 이상) + 32GB RAM. 32GB 미만의 맥에서는 MLX 모드 대신 기본 모드로 8B급 소형 모델을 실행하는 것이 현실적이다.

M1부터 M4까지 — 칩 세대별 로컬 AI 성능 차이

애플 실리콘의 세대별 메모리 대역폭 차이는 로컬 LLM 성능에 직접적인 영향을 미친다. M1의 메모리 대역폭은 68GB/s, M2는 100GB/s, M3는 100GB/s, M4는 120GB/s 수준이다. M4 Pro 이상에서는 273GB/s까지 올라간다.

LLM 추론은 메모리 대역폭에 크게 의존하기 때문에, 같은 모델이라도 M4 Pro에서 M1 대비 2~3배 빠른 토큰 생성 속도를 기대할 수 있다. 맥미니 M4 Pro를 로컬 AI 서버로 활용하는 사례도 늘고 있다.

올라마 MLX 지원 시작 — 맥북 로컬 LLM 성능 비교, 설치 방법, 벤치마크 총정리

올라마 MLX 벤치마크 — 얼마나 빨라졌나

ollama vs llama.cpp vs vLLM-MLX — 맥 로컬 LLM 프레임워크 비교

맥북에서 올라마 MLX 설치하는 방법

M1부터 M4까지 — 칩 세대별 로컬 AI 성능 차이

관련 기사