llama.cpp, NVIDIA 협업으로 gpt-oss 네이티브 MXFP4 지원 추가
llama.cpp가 엔비디아와의 협업으로 gpt-oss 모델의 네이티브 MXFP4 포맷 지원을 추가했다. ggml-org/llama.cpp 저장소는 깃허브 트렌딩에 진입했다.
llama.cpp는 C/C++로 LLM 추론을 실행하는 오픈소스 프로젝트로, ggml 텐서 라이브러리의 새 기능을 개발하는 주력 무대 역할을 한다. 저장소에는 새 WebUI 사용법과 gpt-oss를 llama.cpp로 실행하는 절차를 다루는 별도 가이드가 추가됐다.
추론 서버 컴포넌트인 llama-server에는 멀티모달 입력 지원이 추가됐다.
허깅페이스 캐시 마이그레이션도 적용됐다. -hf 인자로 내려받은 모델이 표준 허깅페이스 캐시 디렉터리에 저장되므로, 같은 캐시를 다른 허깅페이스 도구와 공유할 수 있다.
CLI는 llama-cli -hf <user>/<model>[:quant] 형식의 한 줄 명령으로 모델을 받아 실행한다. 예시 명령은 llama-cli -hf ggml-org/gemma-3-1b-it-GGUF이며, 기본 다운로드 소스는 허깅페이스다. MODEL_ENDPOINT 환경 변수로 다른 소스로 전환할 수 있다.
양자화 정밀도는 1.5비트부터 8비트까지 7단계 정수 양자화를 지원해 추론 속도와 메모리 사용량을 줄인다. 하드웨어 백엔드는 엔비디아 GPU용 맞춤 CUDA 커널, AMD GPU용 HIP, 무어 스레드 GPU용 MUSA, Vulkan, SYCL을 망라하며 RISC-V에는 P 확장과 ZIHINTPAUSE 지원이 추가됐다. CPU와 GPU 혼합 추론으로 총 VRAM 용량을 넘는 큰 모델도 부분 가속한다.
언어 바인딩 생태계는 TypeScript·Wasm, Ruby, Rust, C#·.NET, Scala 3, Clojure, R 등으로 확장됐고, 모델 변환·관리 도구 ggify·ollama-dl·gguf-parser 등도 함께 배포된다.