AWS, AI 에이전트 평가 서비스 Amazon Bedrock AgentCore Evaluations 정식 출시
AWS가 AI 에이전트의 성능을 개발부터 운영까지 체계적으로 평가할 수 있는 완전 관리형 서비스 Amazon Bedrock AgentCore Evaluations를 정식 출시(GA)했다. 이 서비스는 2025년 AWS re:Invent에서 퍼블릭 프리뷰로 처음 공개된 바 있다.
AI 에이전트는 데모 환경에서는 정상적으로 작동하더라도 실제 프로덕션에 배포하면 잘못된 도구 호출, 일관성 없는 응답, 예상치 못한 장애 모드를 보이는 경우가 많다. 대규모 언어 모델(LLM)의 비결정적 특성상 동일한 사용자 쿼리에도 매번 다른 도구 선택과 추론 경로, 출력이 나올 수 있기 때문이다.
AgentCore Evaluations는 이러한 기대 동작과 실제 사용자 경험 간의 격차를 해소하기 위해 설계됐다. 기존 소프트웨어 테스트로는 감당할 수 없었던 에이전트 평가의 고유한 과제를 다루며, 평가 모델과 추론 인프라, 데이터 파이프라인, 스케일링을 모두 관리해준다.
이 서비스는 세 가지 평가 방식을 제공한다. 첫째, LLM-as-a-Judge 방식은 LLM이 구조화된 루브릭에 따라 에이전트의 각 상호작용을 평가하고 점수와 함께 상세한 추론 근거를 제공한다. 둘째, Ground Truth 기반 평가는 에이전트 응답을 사전 정의된 데이터셋과 비교한다. 셋째, 커스텀 코드 평가기는 AWS Lambda를 활용해 자체 평가 코드를 실행할 수 있다.
AgentCore Evaluations는 OpenTelemetry(OTEL) 트레이스와 생성형 AI 시맨틱 컨벤션을 기반으로 에이전트 동작을 엔드투엔드로 검사한다. 이 오픈소스 관측성 표준은 프롬프트, 완성, 도구 호출, 모델 파라미터 등 언어 모델 상호작용에 특화된 필드를 포함한다.
이 서비스는 Strands Agents, LangGraph 등 다양한 에이전트 프레임워크와 호환되며 OpenTelemetry 및 OpenInference로 계측된 에이전트에서 일관되게 작동한다. 빌트인 평가기의 경우 모델 할당량과 추론 용량이 완전 관리되므로, 여러 에이전트를 평가하는 조직도 자체 할당량을 소모하거나 별도 인프라를 프로비저닝할 필요가 없다.
서비스 설계의 세 가지 원칙도 제시됐다. 증거 기반 개발(Evidence-driven development)은 직관 대신 정량적 메트릭으로 변경의 실제 영향을 측정하고, 다차원 평가(Multi-dimensional assessment)는 에이전트 동작의 여러 측면을 독립적으로 평가해 개선이 필요한 지점을 정확히 파악한다. 지속적 측정(Continuous measurement)은 개발 단계에서 설정된 성능 기준선을 프로덕션 모니터링에 직접 연결한다.
에이전트의 개발-운영 여정에 따라 두 가지 평가 요구가 존재한다. 개발 단계에서는 대안 비교, 큐레이션된 데이터셋 테스트, 결과 재현, 배포 전 검증이 가능한 통제된 환경이 필요하다. 운영 단계에서는 사전 테스트에서 예상하지 못한 엣지 케이스와 상호작용 패턴을 포함한 실시간 모니터링이 요구된다.