목록으로
제품2026년 4월 3일 AM 04:34

구글, Gemini API에 Flex·Priority 서비스 티어 추가… 비용 50% 절감 또는 최고 신뢰성 선택 가능

구글이 Gemini API에 Flex와 Priority 두 가지 새로운 서비스 티어를 추가했다. 이번 업데이트로 개발자는 비용과 신뢰성 사이에서 워크로드 특성에 맞는 세밀한 선택이 가능해졌다.

AI가 단순 챗봇에서 복잡한 자율 에이전트로 진화하면서, 개발자들은 대량의 백그라운드 작업과 사용자 대면 인터랙티브 작업이라는 두 가지 유형의 로직을 동시에 관리해야 하는 상황에 놓여 있다. 기존에는 이를 위해 표준 동기식 서빙과 비동기 Batch API를 별도로 운영해야 했다.

새로 도입된 Flex 티어는 지연 시간에 민감하지 않은 워크로드를 위한 비용 최적화 옵션이다. 표준 API 대비 50%의 비용 절감을 제공하며, Batch API와 달리 동기식 인터페이스를 그대로 사용한다. 입출력 파일 관리나 작업 완료 폴링 없이 기존과 동일한 엔드포인트를 활용할 수 있다.

Flex 티어의 주요 활용 사례로는 백그라운드 CRM 업데이트, 대규모 리서치 시뮬레이션, 에이전트가 백그라운드에서 탐색하거나 사고하는 에이전틱 워크플로우 등이 제시됐다. Flex 티어는 모든 유료 등급에서 이용 가능하며, GenerateContent와 Interactions API 요청을 지원한다.

Priority 티어는 프리미엄 가격으로 최고 수준의 신뢰성을 보장한다. 플랫폼 사용량이 최고조에 달하는 시점에서도 Priority 요청은 선점되지 않으며, 트래픽이 한도를 초과하면 요청이 실패하는 대신 Standard 티어로 자동 다운그레이드되어 서비스 연속성을 유지한다.

또한 API 응답에는 어떤 티어에서 요청이 처리됐는지가 표시되어, 개발자가 성능과 과금 상태를 투명하게 확인할 수 있다. Priority 티어의 주요 용도로는 실시간 고객 지원 봇, 라이브 콘텐츠 모더레이션 파이프라인, 시간에 민감한 요청 등이 있다.

Priority 티어는 Tier 2 및 Tier 3 유료 프로젝트 사용자에게 GenerateContent API와 Interactions API 엔드포인트를 통해 제공된다. 사용 방법은 요청 시 service_tier 파라미터를 설정하는 것만으로 간단하게 적용할 수 있다.

이번 업데이트는 개발자가 단일 통합 인터페이스 안에서 비용 효율적인 백그라운드 처리와 고신뢰 실시간 서빙을 동시에 운영할 수 있게 해, 기존의 동기·비동기 아키텍처 분리 문제를 해결하는 데 초점을 맞추고 있다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사