목록으로
제품2026년 4월 10일 AM 02:39

에스티 로더, 구글 Cloud Run 워커풀로 소비자용 AI 어드바이저 출시… 비용 40% 절감

에스티 로더 컴퍼니즈(Estée Lauder Companies)가 구글 Cloud Run 워커풀(worker pools)을 활용해 소비자 대상 생성형 AI 애플리케이션을 성공적으로 구축한 사례가 공개됐다. Cloud Run 워커풀은 이번에 정식 출시(GA)됐다.

에스티 로더의 Rostrum 플랫폼은 LLM 기반 애플리케이션을 위한 폴리모픽 채팅 서비스로, 원래 단독 Cloud Run 서비스로 운영됐다. 내부 도구에서는 예측 가능한 트래픽으로 문제가 없었지만, 소비자 대상 첫 생성형 AI 애플리케이션인 조 말론 런던(Jo Malone London) AI 향수 어드바이저를 출시하려면 수천 명의 동시 사용자가 보내는 AI 프롬프트를 감당할 수 있는 아키텍처가 필요했다.

에스티 로더는 불과 몇 주 만에 Cloud Run 워커풀 기반의 프로듀서-컨슈머 모델로 마이그레이션했다. FastAPI 기반 웹 티어가 사용자 메시지를 Cloud Pub/Sub에 발행하면, 워커풀이 상시 가동 컨슈머로서 큐에서 메시지를 가져와 LLM 추론을 처리하는 구조다.

이 아키텍처를 통해 에스티 로더는 100% 메시지 내구성을 달성했다. 연말 쇼핑 시즌 트래픽 급증 중에도 사용자 메시지 손실이 없었으며, 서버 사이드 렌더링이 메시지 처리 부하와 분리돼 강력한 UI 지연 시간 SLA를 유지할 수 있었다. 서버 관리에 소요되는 시간도 사실상 제로에 가까웠다.

에스티 로더의 수석 머신러닝 엔지니어 크리스 쿠로(Chris Curro)는 조 말론 런던 AI 향수 어드바이저가 대화형 탐색, 결정론적 스코어링, 카피 생성 등 여러 LLM 및 도구 호출을 연쇄적으로 처리하는 파이프라인이라며, Cloud Run 워커풀이 인프라 관리 없이 소비자 규모에서 안정적으로 운영할 수 있는 정확히 필요한 기본 요소였다고 밝혔다.

Cloud Run 워커풀은 기존 요청 기반 서비스나 잡(Jobs) 대비 장시간 실행되는 백그라운드 작업에서 약 40% 저렴한 비용으로 운영할 수 있다. 정식 출시 시점에 NVIDIA L4와 RTX PRO 6000(Blackwell) GPU를 지원하며, 분산 LLM 학습이나 파인튜닝 워크로드에도 적합하다.

구글은 워커풀 스케일링을 위해 Cloud Run External Metrics Autoscaler(CREMA)도 오픈소스로 공개했다. CREMA는 Kafka, Pub/Sub, GitHub Actions, Prometheus 등 외부 소스의 메트릭을 기반으로 인스턴스를 자동 확장하며, 유휴 시에는 제로까지 축소해 성능과 비용을 동시에 최적화한다.

이 모듈식 아키텍처는 에스티 로더가 다양한 브랜드 포트폴리오 전반에 걸쳐 전문화된 AI 어드바이저를 신속하게 출시하기 위한 청사진으로 활용되고 있다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사