애플 ML 리서치, MoE 캐싱 벤치마크 'SpecMD'·신규 정책 'Least-Stale' 공개… OLMoE서 VRAM 5%(0.6GB)로 88%+ 히트율·TTFT 최대 34.7% 단축, LRU 대비 충돌 미스 최대 85× 감소
Apple Machine Learning Research가 Mixture-of-Experts(MoE) 모델의 expert caching 정책을 체계적으로 비교하는 표준 벤치마크 프레임워크 'SpecMD'와 신규 eviction 정책 'Least-Stale'을 공개했다. 저자는 Duc Hoang, Ajay Jaiswal, Mohammad Samragh Razlighi, Minsik Cho다.
MoE 모델은 추론 시 모델 전체 파라미터 중 일부만 활성화하는 sparse expert activation 구조를 갖는다. 그러나 이 sparsity를 실제 성능으로 환산하려면 어떤 expert를 메모리에 유지하고 어떤 expert를 내릴지 결정하는 expert caching 메커니즘이 필요하다.
기존에는 다양한 hardware-centric caching policy가 제안돼 왔지만, 서로 다른 정책이 어떻게 상호작용하고 어떤 하드웨어 사양과 결합될 때 어떤 결과를 내는지에 대한 이해는 충분하지 못했다. SpecMD는 이 공백을 메우기 위해 다양한 하드웨어 구성에서 ad-hoc 캐시 정책을 표준화된 방식으로 벤치마크할 수 있도록 설계됐다.
연구진은 SpecMD를 사용해 여러 MoE 캐싱 전략을 광범위하게 벤치마크했고, 통제된 환경과 현실적 제약 아래에서 기존 접근들을 재현·확장했다. 이 과정에서 MoE의 expert access 패턴이 LRU·LFU 같은 정책이 전제하는 temporal locality 가정과 일치하지 않는다는 점을 확인했다.
이 관찰을 바탕으로 새 eviction 정책 'Least-Stale'을 제안했다. MoE의 비교적 예측 가능한 expert access 패턴을 활용해 collision miss를 줄이는 방식으로, 논문은 LRU 대비 collision miss를 최대 85배까지 줄였다고 보고했다.
OLMoE에서의 실측 결과는 더 구체적이다. 전체 VRAM의 5%, 즉 0.6GB만을 캐시 용량으로 할당한 조건에서 88% 이상의 히트율을 달성했고, Time-to-first-token(TTFT)은 최대 34.7% 줄어들었다. 작은 캐시 예산만으로 사용자 응답 지연을 의미 있게 단축할 수 있음을 시사한다.
이번 작업은 동일 그룹의 후속 캐시·MoE 효율화 연구 라인과 맞닿아 있다. 'Stochastic KV Routing: Enabling Adaptive Depth-Wise Cache Sharing'은 2026년 5월 5일 공개된 작업으로, autoregressive 생성 중 KV 캐시의 메모리 부담을 줄이기 위해 시간축 압축·축출 위주의 기존 접근에서 depth 차원으로 시야를 확장한다.
또 2026년 1월 12일 발표된 'MoEs Are Stronger than You Think: Hyper-Parallel Inference Scaling with RoE'는 토큰 단위에서 모델로부터 여러 출력 후보를 계산·집계하는 hyper-parallel scaling을 MoE 구조에 구현해 추론 품질을 높이는 방향을 제시했다. SpecMD·Least-Stale은 이러한 MoE 추론 스택 효율화 흐름의 캐시 계층 축에 속하는 결과물이다.