연구2026년 6월 8일 PM 09:34

내 GPU에 맞는 최고 성능 로컬 LLM 골라주는 오픈소스 'whichllm'

깃허브 트렌딩에 오른 오픈소스 명령줄 도구 'whichllm'은 내 하드웨어에서 실제로 돌릴 수 있는 최적의 로컬 LLM을 찾아준다. GPU·CPU·RAM을 자동으로 감지하고, 허깅페이스에 올라온 모델 가운데 내 시스템에 맞는 상위 모델을 순위로 보여준다. 별도 프로젝트 설정 없이 추천 명령 한 번이면 된다.

핵심은 "무엇이 들어가느냐"가 아니라 "들어가는 것 중 무엇이 가장 좋으냐"다. VRAM에 모델을 욱여넣는 건 쉬운 부분이고, 맞는 모델들 가운데 실제로 가장 성능이 좋은 것을 골라내는 게 어려운 부분인데 whichllm은 바로 그 지점을 노린다.

예를 들어 RTX 4090에서 whichllm은 Qwen3.6-27B(27.8B, Q5_K_M, 점수 92.8, 초당 27토큰)를 1위로 꼽는다. 더 큰 Qwen3-32B(32.0B, Q4_K_M, 점수 83.0, 초당 31토큰)도 카드에 무리 없이 들어가지만, 27B 모델이 실제 벤치마크에서 더 높은 점수를 받고 세대도 더 새롭기 때문이다. 크기만 보는 도구라면 더 큰 모델을 건넸을 자리다.

순위는 크기 어림짐작이 아니라 실제 벤치마크를 합쳐 매긴다. LiveBench, Artificial Analysis, Aider, 멀티모달·비전, 챗봇 아레나 ELO, Open LLM Leaderboard 점수를 출처 신뢰도로 가중해 병합하며, 그냥 들어가는 가장 큰 모델은 1위가 되지 않는다.

최신성도 반영한다. 오래된 리더보드 점수는 각 모델의 계보를 따라 강등돼, 2024년 모델이 낡은 점수로 최신 세대 모델을 앞지르지 못한다. 벤치마크 스냅샷 날짜가 모든 순위 아래에 표시돼, 오래된 추천이 조용히 신뢰되는 대신 한눈에 드러난다.

근거 등급도 매긴다. 모든 점수는 direct·variant·base·interpolated·self-reported로 태그되고 신뢰도에 따라 할인된다. 업로더가 지어낸 주장이나, 작은 파생 모델이 훨씬 큰 베이스 모델의 점수를 빌려오는 교차 상속은 적극적으로 걸러낸다.

추정도 아키텍처를 반영한다. VRAM은 가중치, GQA KV 캐시, 활성화, 오버헤드를 더해 계산하고, 속도는 대역폭 기준에 양자화별 효율, 백엔드별 계수, MoE의 활성 파라미터 대 전체 파라미터 구분, 통합 메모리 대 분리형 PCIe 부분 오프로딩까지 모델링한다.

명령은 단순하다. whichllm은 답을 출력하고, --json을 붙이면 스크립트 파이프라인에 넣을 수 있다. whichllm --gpu "RTX 4090"처럼 특정 GPU를 가정해 구매 전 시뮬레이션할 수 있고, plan 명령은 특정 모델에 필요한 GPU를 역으로 찾아주며, upgrade 명령은 현재 장비와 후보 GPU를 비교한다. run 명령은 모델을 내려받아 곧바로 대화를 시작한다.

데이터는 허깅페이스 API에서 직접 가져오되, 오프라인이나 요청 제한 상황을 위해 큐레이션된 고정 폴백을 둔다. 하드웨어는 NVIDIA, AMD, 애플 실리콘, CPU 전용을 자동 감지하고, general·coding·vision·math 작업 프로필로 걸러낼 수 있다. GGUF, AWQ/GPTQ, FP16/BF16 등 여러 모델 형식을 지원한다.

내 GPU에 맞는 최고 성능 로컬 LLM 골라주는 오픈소스 'whichllm'

관련 기사