목록으로
연구2026년 4월 11일 AM 02:34

구글 클라우드, 대화형 분석 에이전트 평가 오픈소스 도구 Prism 공개

구글 클라우드가 대화형 분석(Conversational Analytics) 에이전트의 성능을 체계적으로 평가할 수 있는 오픈소스 도구 Prism을 공개했다. Prism은 BigQuery UI 및 API, Looker API에서 동작하는 대화형 분석 에이전트를 대상으로 반복 가능한 테스트 환경을 제공한다.

자연어로 데이터를 쿼리하는 AI 에이전트가 늘어나고 있지만, 프로토타입 단계에서 프로덕션 수준의 도구로 전환하려면 엄격하고 반복 가능한 테스트가 필수적이다. Prism은 기존의 예측 불가능한 테스트 방식을 대체하여, 맞춤형 질문-답변 세트를 기반으로 에이전트 성능을 정량적으로 측정할 수 있게 한다.

Prism의 핵심 구조는 에이전트, 테스트 스위트, 어서션(Assertions), 평가 실행의 네 가지 요소로 구성된다. 에이전트는 대화형 분석 에이전트와 시스템 지시사항, 데이터 소스, 설정을 포함하며, 테스트 스위트는 에이전트가 정확히 답해야 하는 질문 세트를 정의한다.

어서션은 생성된 SQL에 GROUP BY 절이 포함되어 있는지, 반환된 데이터가 정답과 일치하는지 등 특정 기준을 자동으로 검증하는 체크 기능이다. 평가 실행 시 에이전트가 모든 질문에 답변을 시도하고, Prism이 답변의 품질을 채점하여 명확한 합격-불합격 판정을 제공한다.

Prism은 다양한 정밀 튜닝 기능을 제공한다. Text and Query Checks로 에이전트가 올바른 용어와 로직을 사용하는지 확인하고, Data Check Row와 Data Check Row Count 같은 데이터 검증 도구로 BigQuery나 Looker에서 반환되는 데이터의 정확성을 보장한다. Latency Limits로 응답 속도를 모니터링하며, AI Judge 기능으로 전통적인 로직으로는 평가하기 어려운 미묘한 응답까지 판별할 수 있다.

에이전트 출력이 예상과 다를 경우, Trace View 기능이 실행 경로를 시각화해 모델의 추론 과정, 중간 SQL 생성 결과, 결과 데이터셋을 확인할 수 있다. 이를 통해 프롬프트나 설정이 모델을 잘못 유도하는 지점을 정확히 파악할 수 있어 디버깅에 필수적이다.

Comparison Dashboard의 Delta Analysis 기능은 여러 버전의 평가 결과를 비교해 특정 개선 사항이나 성능 저하를 식별할 수 있게 한다. 이 데이터 기반 접근 방식으로 에이전트를 개선할 때마다 모든 설정 변경이 정의된 정확도 벤치마크에 더 가까워지는지 확인할 수 있다.

Prism은 현재 오픈소스로 공개되어 있으며, 리포지토리에서 바로 에이전트 온보딩, 테스트 스위트 구축, 평가 실행을 시작할 수 있다. 구글 클라우드 측은 이 오픈소스 Prism을 기반으로 퍼스트파티 솔루션도 개발 중이라고 밝혔으며, 피드백과 기능 요청을 수렴하고 있다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사