구글 리서치, AI 메모리 압축 알고리즘 TurboQuant 공개… KV 캐시 6배 이상 축소
구글 리서치(Google Research)가 AI 시스템의 핵심 병목인 작업 메모리를 획기적으로 줄이는 새로운 압축 알고리즘 TurboQuant을 공개했다. 이 기술은 벡터 양자화(vector quantization)를 활용해 AI 처리 과정의 캐시 병목을 해소하는 방식이다.
TurboQuant은 AI의 런타임 작업 메모리인 KV 캐시를 최소 6배 이상 압축할 수 있다. 이를 통해 AI가 더 적은 메모리 공간으로 더 많은 정보를 기억하면서도 정확도를 유지할 수 있다고 연구진은 설명했다.
연구진은 다음 달 열리는 ICLR 2026 학회에서 이 연구 결과를 발표할 예정이다. 이번 압축을 가능케 한 두 가지 핵심 기법은 양자화 방법론인 PolarQuant과 학습·최적화 방법론인 QJL이다.
클라우드플레어(Cloudflare) CEO 매튜 프린스(Matthew Prince)를 비롯한 업계 인사들은 이를 구글의 딥시크(DeepSeek) 모멘트라고 평가했다. 딥시크는 경쟁사 대비 훨씬 적은 비용과 열등한 칩으로 훈련하면서도 경쟁력 있는 결과를 달성한 중국 AI 모델이다.
인터넷에서는 HBO 드라마 "실리콘 밸리"(2014~2019)의 가상 스타트업 파이드 파이퍼(Pied Piper)와의 비교가 화제가 됐다. 파이드 파이퍼의 핵심 기술이 무손실에 가까운 극한 압축 알고리즘이었기 때문이다.
다만 TurboQuant은 아직 연구실 단계의 성과로, 실제 대규모 배포는 이루어지지 않았다. 또한 이 기술은 추론 메모리만을 대상으로 하며, 여전히 막대한 RAM을 필요로 하는 학습 과정에는 적용되지 않는다는 한계가 있다.