목록으로
제품2026년 4월 2일 AM 02:39

구글 GKE 인퍼런스 게이트웨이, 실시간·배치 AI 추론을 하나의 GPU 풀에서 통합 운영

구글 클라우드가 GKE(Google Kubernetes Engine) 인퍼런스 게이트웨이(Inference Gateway)의 비동기 추론 기능을 공개했다. 이를 통해 실시간 추론과 배치 추론을 별도 클러스터 없이 동일한 GPU/TPU 가속기 풀에서 통합 운영할 수 있다.

기업들은 기존에 AI 추론 인프라를 구축할 때 이분법적 선택에 직면했다. 챗봇처럼 즉각 응답이 필요한 실시간 트래픽용 클러스터와, 문서 인덱싱이나 상품 분류 같은 지연 허용 배치 작업용 클러스터를 각각 별도로 운영해야 했다. 이로 인해 실시간 클러스터는 트래픽 급증에 대비해 과잉 프로비저닝되고, 비첨두 시간대에는 유휴 용량이 낭비되는 문제가 발생했다.

GKE 인퍼런스 게이트웨이는 이 문제를 가속기 용량을 하나의 유동적인 리소스 풀로 취급하는 방식으로 해결한다. 실시간 추론에서는 KV 캐시 활용도 등 가속기 특화 메트릭을 기반으로 지연 시간 인식 스케줄링을 수행해 첫 번째 토큰까지의 시간(time-to-first-token)을 최소화한다.

비동기 추론은 클라우드 Pub/Sub과 통합된 비동기 처리기 에이전트(Async Processor Agent)를 통해 작동한다. 이 에이전트는 Pub/Sub 토픽에서 요청을 가져와 인퍼런스 게이트웨이로 전달하되, 배치 작업을 실시간 트래픽 급증 사이의 유휴 가속기 용량을 채우는 필러(filler) 트래픽으로 처리한다. 실시간 요청은 항상 게이트웨이 수준에서 우선순위를 갖는다.

초기 테스트 결과가 이 접근법의 효과를 입증했다. 비동기 처리기 에이전트 없이 저우선순위 요청을 인퍼런스 게이트웨이에 직접 보냈을 때 리소스 경합으로 99%의 메시지가 드롭됐다. 반면 비동기 처리기를 적용하자 지연 허용 요청의 100%가 가용 사이클 동안 정상 처리됐다.

핵심 기능으로는 Pub/Sub 기반 영속적 메시징, 큐 깊이 실시간 모니터링에 기반한 구성 가능 재시도 로직, 실시간 트래픽의 엄격한 우선순위 보장 등이 포함된다. 사용자는 Pub/Sub 토픽을 연결하기만 하면 에이전트가 공유 가속기 풀로의 라우팅 로직을 자동 처리한다.

이 기능은 오픈소스(OSS) 우선 접근법으로 개발돼 여러 클라우드 및 환경에서 사용 가능하다. 구글은 다음 개발 단계로 데드라인 인식 스케줄링을 예고했는데, 사용자가 배치 완료 시간의 소프트 리밋을 설정할 수 있어 필러 트래픽과 실시간 수요 간 균형을 더 세밀하게 최적화할 수 있게 된다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사