목록으로
제품2026년 6월 10일 AM 02:04

구글 클라우드, GKE 추론 게이트웨이로 LLM 응답 대기시간 최대 92% 단축

구글 클라우드가 생성형 AI 추론 워크로드의 효율을 끌어올리는 'GKE 추론 게이트웨이(GKE Inference Gateway)'의 성능 자료를 공개했다. 이 기능은 구글 쿠버네티스 엔진(GKE) 게이트웨이의 네이티브 확장으로, 실시간 모델 서버 지표를 바탕으로 생성형 AI 요청을 지능적으로 라우팅한다.

기존의 단순 라운드로빈 부하 분산은 가속기 재연산을 자주 유발해 비용을 키우고 사용자 지연 시간을 치솟게 한다. 반면 GKE 추론 게이트웨이는 프리픽스 캐싱과 모델 인식 라우팅 같은 기술을 활용해, 요청을 곧바로 처리할 준비가 된 가속기로 정확히 보낸다. 이를 통해 하드웨어 활용도를 높이고 응답 속도를 끌어올린다.

독립 벤치마크 기관 프린시플드 테크놀로지스(Principled Technologies)의 보고서에 따르면, GKE 추론 게이트웨이는 차상위 관리형 쿠버네티스 서비스보다 처리량이 15.7% 높고, 대기 시간은 92.8% 짧으며, 토큰 간 지연 시간은 62.6% 낮았다.

이 벤치마크는 라마 3.1 8B 인스트럭트(Llama 3.1 8B Instruct)의 공유 프리픽스 워크로드를 대상으로, 양쪽 모두 엔비디아 A100 40GB GPU 8장을 쓰는 동일한 하드웨어 환경에서 진행됐다. 비교 대상은 일반적인 라운드로빈 HTTP 부하 분산을 쓰는 표준 서드파티 관리형 쿠버네티스 서비스였다. 처리량은 초당 처리 토큰이 15.7% 늘었고, 첫 토큰까지 걸리는 시간(TTFT)은 92.8% 줄었으며, 토큰 간 지연(ITL)은 62.6% 감소했다.

핵심 기술인 프리픽스 캐싱은 길고 반복되는 프롬프트 앞부분의 KV 캐시(활성화 상태)를 저장하는 방식이다. 연속된 요청이 같은 시스템 지시문이나 맥락, 문서를 공유하면 모델은 해당 토큰을 다시 처리하지 않고 건너뛴다. GKE 추론 게이트웨이는 들어오는 요청의 앞부분을 읽어, 그 데이터를 이미 메모리에 들고 있는 파드로 연결한다.

활용 사례로는 검색 증강 생성(RAG)을 이용한 문서·코드베이스 질의응답이 꼽힌다. 방대한 사내 저장소를 조회할 때 문서 전체를 정적 캐시 프리픽스로 고정해두면, LLM은 매 질문마다 수천 줄의 API 참조나 위키를 다시 읽지 않고 사용자의 짧은 질문만 계산한다.

또 다른 사례는 멀티턴 대화다. 시스템 페르소나와 핵심 업무 규칙을 LLM 서버에 캐싱해두면, 수백만 건의 고객 상담에서 동일하게 반복되는 기본 프롬프트와 참조 표를 매번 다시 처리하지 않아도 된다. 이를 통해 트래픽이 몰리는 상황에서도 챗봇이 빠른 응답을 유지한다.

실제 적용 사례로는 스냅(Snap)이 거론됐다. 스냅의 소프트웨어 엔지니어링 담당 시니어 매니저 비나이 콜라는 프로덕션 AI 인프라에 llm-d를 통합하고 있으며 프리픽스 캐시 인식 라우팅으로 75~80%에 이르는 프리픽스 캐시 적중률을 달성했다고 밝혔다. 그는 오픈소스인 llm-d 덕분에 엔보이 기반 서비스 메시와 매끄럽게 통합할 수 있었다고 덧붙였다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사