제품2026년 5월 6일 AM 05:35

AWS, Amazon Bedrock AgentCore에 'Agent Quality Optimization' 프리뷰 공개… Recommendations·Batch Evaluation·A/B Testing으로 observe-evaluate-improve 루프 자동화

AWS가 Amazon Bedrock AgentCore에 에이전트 품질 최적화(agent quality optimization) 기능을 프리뷰로 공개했다. 운영 환경에서 수집된 트레이스를 분석해 권장 변경안을 만들고, 배치 평가(batch evaluation)와 A/B 테스트로 그 효과를 검증한 뒤 배포로 연결하는 일련의 흐름을 한 플랫폼 안에서 처리하도록 설계됐다.

AWS는 출시 동기로, 출시 시점에 잘 작동하던 AI 에이전트가 시간이 지나면서 모델 진화·사용자 행동 변화·다른 맥락에서의 프롬프트 재사용 등으로 품질이 조용히 저하된다는 점을 들었다. 기존에는 사용자 불만이 들어오면 개발자가 트레이스를 수동으로 읽고 가설을 세워 프롬프트를 다시 쓰는 사이클을 반복해야 했고, 이는 다른 사용자에서 새 문제를 만들어내곤 했다는 설명이다.

이번 업데이트는 observe(관찰)-evaluate(평가)-improve(개선) 루프 가운데 비어 있던 부분을 채우는 것이 목표다. 핵심은 세 가지 기능, Recommendations·Batch Evaluation·A/B Testing이며 각각 변경안을 제안하고, 사전 정의된 테스트셋과 라이브 트래픽 양쪽에서 변경안을 검증하는 역할을 맡는다.

Recommendations는 운영 트레이스와 평가 출력을 분석해 사용자가 지정한 평가자(evaluator)에 맞춰 시스템 프롬프트 또는 툴 설명(tool descriptions)을 최적화한다. 사용자는 Recommendations API에 에이전트가 트레이스를 기록하는 CloudWatch Log group을 가리키고, AgentCore 내장 평가자 또는 커스텀 평가자 중 보상 신호(reward signal)로 쓸 항목을 고른 뒤, 시스템 프롬프트와 툴 설명 중 어느 쪽을 최적화할지 선택한다. 툴 설명 추천의 경우 툴 구현은 건드리지 않고 설명만 다듬는다.

변경 사항은 'configuration bundle' 형태로 패키징된다. 번들은 런타임 ARN을 키로 하는 불변·버전드 스냅샷으로, 모델 ID·시스템 프롬프트·툴 설명을 담는다. 에이전트는 AgentCore SDK를 통해 런타임에 활성 구성을 동적으로 읽어들이기 때문에 프롬프트나 모델 교체가 코드 변경이 아닌 구성 변경으로 처리된다. 코드 변경이 포함되는 경우에는 번들 대신 별도 런타임 엔드포인트로 배포한다.

Batch Evaluation은 큐레이션된 데이터셋에 대해 새 번들로 에이전트를 돌리고, 결과 세션을 일괄 평가해 베이스라인과 집계 점수를 비교한다. 이미 정의해둔 사용 사례에서의 회귀(regression)를 잡아내며, 팀들은 이 단계를 CI/CD 파이프라인에 연결해 known-good 케이스를 통과하지 못한 변경이 운영에 도달하지 못하도록 한다고 AWS는 설명했다.

A/B Testing은 AgentCore Gateway가 라이브 운영 트래픽을 사용자가 설정한 비율대로 컨트롤(현재 버전)과 트리트먼트(후보 버전) 사이에서 분기시켜 비교한다. 변형은 구성 전용 변경의 경우 같은 런타임 위 다른 번들 버전이 될 수 있고, 코드 변경이 포함되면 서로 다른 게이트웨이 타깃이 다른 런타임 엔드포인트를 가리키도록 구성된다. 온라인 평가는 매 세션을 지정 평가자로 채점하며, 결과 보고에는 신뢰구간(confidence intervals)과 p-value가 포함된다. 충분한 데이터가 모이면 테스트를 중단하고 새 변형을 기본값으로 승격하며, 롤백은 테스트를 일시 중지하는 방식으로 처리된다.

AgentCore는 모델 호출·툴 호출·추론 단계를 OpenTelemetry 호환 트레이스로 캡처해 AgentCore Observability에서 관리한다. 평가는 이 트레이스를 토대로 goal success rate, tool selection accuracy, helpfulness, safety 등 차원에서 자동 채점되며, 내장 평가자·정답 비교·커스텀 LLM-as-judge 스코어링을 사용할 수 있다.

AWS는 도입 사례로 NTT DATA의 Generative AI Business Strategy Department 책임자 Yoshiharu Okuda, 노무라종합연구소(Nomura Research Institute) Senior Managing Director Masashi Shimizu의 발언을 인용했다. 두 발언 모두 운영 트레이스로부터 추천을 생성하고 A/B 테스트로 통계적 유의성을 확보해 검증·배포하는 반복 가능한 사이클을 강조했다.

프리뷰 단계에서는 추천 생성·평가자 지정·승격 여부 결정을 모두 개발자가 직접 트리거하는 'developer-triggered' 설계가 적용된다. AWS는 향후 평가자 점수가 임계치 아래로 떨어지면 모니터 알람이 추천과 검증을 자동 실행해 검토 큐로 보내는 자동화, 다중 평가자를 함께 가중하는 추천, 운영 실패 패턴 클러스터링, Skills 영역으로의 최적화 표면 확장 등을 로드맵으로 제시했다.

또한 데모 시나리오로 GitHub에 공개된 'Market Trends Agent' 샘플을 제시했다. 이는 투자 브로커(investment brokers)를 대상으로 실시간 주식 데이터, 섹터 분석, 뉴스 검색, 개인화된 브로커 프로필을 제공하는 시장 인텔리전스 에이전트로 소개됐다.

AWS, Amazon Bedrock AgentCore에 'Agent Quality Optimization' 프리뷰 공개… Recommendations·Batch Evaluation·A/B Testing으로 observe-evaluate-improve 루프 자동화

관련 기사