LLM 추론 KV 캐시를 재사용 지식으로 바꾸는 오픈소스 'LMCache'
LMCache는 대규모언어모델(LLM) 추론을 위한 KV 캐시(키-값 캐시) 관리 계층이다. 한 번 계산한 KV 캐시를 일시적 상태가 아니라 영구적으로 저장하고 여러 서빙 엔진에서 다시 쓸 수 있는 'AI 네이티브 지식'으로 바꾸는 오픈소스 프로젝트로, 깃허브 트렌딩에 올랐다.
이를 통해 첫 토큰 생성 시간(TTFT)을 줄이고 처리량을 끌어올린다. 특히 긴 맥락을 다루는 에이전트 작업, 여러 차례 주고받는 멀티턴 대화, RAG(검색 보강 생성)처럼 지식을 덧붙이는 워크로드에서 효과가 크다고 설명한다.
LMCache는 벤더 중립적이다. 다양한 주요 오픈소스 서빙 엔진, 추론 프레임워크, 하드웨어 벤더, 스토리지 시스템, 인프라 제공업체에 KV 캐시 계층으로 붙을 수 있다. 덕분에 사용자는 저장해 둔 KV 캐시를 그대로 재사용하면서 서빙 엔진과 스토리지 벤더를 자유롭게 바꿀 수 있다.
구조적으로는 독립 데몬 프로세스로 동작해 추론 엔진과 별개로 KV 캐시를 관리한다. 따라서 추론 엔진이 중간에 죽더라도 KV 캐시는 사라지지 않으며, 엔진과 운명을 함께 공유하지 않는다.
또한 GPU 메모리에서 CPU 메모리, 로컬 스토리지, 원격 백엔드로 이어지는 계층형 저장소로 KV 캐시를 옮겨 요청과 세션, 엔진 인스턴스 사이에서 재사용한다. 지원하는 저장·전송 백엔드로는 CPU RAM, 로컬 디스크(SSD), Redis/Valkey, Mooncake, InfiniStore, S3 호환 오브젝트 스토리지, NIXL, GDS 등이 있다.
프리픽스 캐싱에 머물지 않고 프롬프트의 어느 위치에 있는 KV 블록이든 재사용하는 비프리픽스 재사용도 지원한다. 이때 CacheBlend 기술로 품질 회복을 위해 필요한 일부 토큰만 선택적으로 다시 계산한다.
프리필 워커에서 디코드 워커로 NVLink, RDMA, TCP 같은 전송 계층을 통해 KV 캐시를 넘기는 PD 분리(prefill-decode disaggregation)도 가능하다. 운영 측면에서는 쿠버네티스 지표와 함께 요청·토큰 단위 프리픽스 캐시 적중률 등 KV 캐시 전용 관측 지표를 제공한다.
생태계 측면에서 LMCache는 2025년 10월 파이토치(PyTorch) 재단에 합류했고, 엔비디아의 다이나모(Dynamo)가 이를 통합했다. 독립 오픈소스 프로젝트로서 엔터프라이즈급 LLM 추론의 KV 캐시 관리 사실상 표준으로 자리잡아 가고 있으며, 개발은 텐서메시(Tensormesh)의 지원을 일부 받는다. 코드베이스는 아파치 라이선스 2.0으로 공개돼 있다.