목록으로
제품2026년 5월 8일 AM 04:06

구글, 'Gemini 3.1 Flash-Lite' Gemini Enterprise Agent Platform 정식 출시… Gladly p95 1.8초·성공률 99.6%·비용 60%↓, JetBrains·Ramp·OffDeal·AlphaSense 도입

구글 클라우드 AI가 자사 에이전트 플랫폼인 Gemini Enterprise Agent Platform에서 'Gemini 3.1 Flash-Lite' 모델의 정식 출시(GA)를 발표했다. Cloud AI 제품 관리 부문 부사장 Michael Gerstenhaber는 Flash-Lite를 Gemini 3 시리즈에서 가장 빠르고 비용 효율이 뛰어난 모델로 소개했다.

Flash-Lite는 초저지연 응답과 대용량 처리, 비용 효율을 목표로 설계됐다. 기존 Pro·Flash 모델군에 합류해 도구 호출과 오케스트레이션 같은 에이전트 작업에 필요한 정밀도와, 자동화 파이프라인을 대규모로 운영할 수 있는 비용 효율을 함께 제공한다는 설명이다.

JetBrains의 AI 디렉터 Vladislav Tankov는 "Gemini 3.1 Flash-Lite를 도입해 IDE AI 어시스턴트와 Junie 에이전트의 응답성을 크게 개선했고, 높은 지능과 낮은 지연의 균형이 실시간 개발자 지원에 적합하다"고 말했다.

고객 서비스 자동화 업체 Gladly는 텍스트 채널 AI 에이전트의 핵심에 Flash-Lite를 적용했다. SMS·WhatsApp·Instagram 등 채널에서 매주 수백만 건의 고객 응대를 처리하면서, 동일 토큰 믹스 기준 추론(thinking) 등급 모델 대비 약 60% 낮은 비용을 달성했다. 전체 응답 생성 p95 지연은 약 1.8초, 분류기와 도구 호출의 p95는 1초 미만이며, 동시 부하가 높은 환경에서 약 99.6%의 성공률을 유지한다고 밝혔다.

크리에이티브·게이밍 분야에서도 도입 사례가 공개됐다. 자연어로 게임을 만들 수 있게 해주는 Astrocade는 모든 게임 요청에 대해 텍스트와 이미지를 함께 분석하는 멀티모달 안전 검사를 Flash-Lite로 수행한다. 또 댓글 인라인 번역으로 다국적 사용자들이 같은 게임을 함께 즐기도록 돕고, 자산 생성 파이프라인에서 썸네일 품질을 높이기 위한 프롬프트 정제에도 활용한다.

크리에이티브 플랫폼 krea.ai는 Nodes 툴에서 사용자의 거친 아이디어를 정교한 이미지 생성 프롬프트로 확장하는 프롬프트 인핸서 용도로 Flash-Lite를 사용한다고 밝혔다.

금융·데이터 운용 분야 사례도 소개됐다. OffDeal은 인베스트먼트 뱅커가 Zoom 통화 중 실시간 리서치·데이터 조회·작업 실행에 활용하는 'Archie' 에이전트를 Flash-Lite로 구동한다. 통화 외에도 인바운드·아웃바운드 이메일을 자동 응답인지, 진행 중인 거래와 관련 있는지 등 구조화 질문으로 병렬 분류하는 트리아지 레이어로 사용하고, 이를 기반으로 어떤 하위 AI 에이전트를 어떤 컨텍스트로 호출할지 결정한다.

금융 운영 플랫폼 Ramp의 응용 AI 엔지니어 Anton Biryukov는 "벤치마크상 비용·지연·지능의 파레토 프런트를 주도하는 Gemini가 Ramp 전반의 모델 스택의 핵심"이라며 "Gemini 3.1 Flash-Lite는 품질 저하 없이 가장 트래픽이 많고 지연에 민감한 기능을 구동하는 데 특히 가치가 있다"고 말했다.

마켓 인텔리전스 플랫폼 AlphaSense의 Chris Ackerson 제품 부문 수석 부사장은 "Gemini 3.1 Flash-Lite가 속도·비용·성능의 균형을 맞춰 데이터 처리와 인텔리전스 제공을 모든 데이터 스택 계층에서 확장할 수 있게 해준다"고 밝혔다.

구글은 이번 GA와 함께 Gemini 3.1 Flash-Lite 문서와 새로운 가격 구조를 공개했고, Gemini Enterprise Agent Platform을 엔터프라이즈 에이전트 개발의 새 표준으로 제시했다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사