목록으로
제품2026년 5월 5일 AM 04:34

AWS Bedrock AgentCore Optimization 프리뷰 공개… 프로덕션 트레이스 기반 추천·배치 평가·A/B 테스트로 시스템 프롬프트·도구 설명 최적화

AWS는 Amazon Bedrock AgentCore에 'AgentCore Optimization' 프리뷰를 공개하고, 에이전트 성능 개선을 자동화하는 관찰-평가-개선(observe-evaluate-improve) 루프를 완성하는 신규 기능을 함께 발표했다. 새 기능은 추천(Recommendations)과 두 가지 검증 방식인 배치 평가(Batch evaluation), A/B 테스트로 구성된다.

AWS는 "출시 시점에 잘 작동하던 AI 에이전트도 그 상태를 유지하지 못한다"며 모델 진화·사용자 행동 변화·설계되지 않은 새 컨텍스트에서의 프롬프트 재사용으로 에이전트 품질이 조용히 저하된다고 설명했다. 기존에는 사용자가 불만을 제기하면 개발자가 트레이스를 읽고 가설을 세워 프롬프트를 다시 쓰고 일부 케이스를 테스트한 뒤 배포하는 순환이 반복돼 왔다는 것이다.

추천 기능은 프로덕션 트레이스와 평가 출력을 분석해 사용자가 지정한 평가자에 맞춰 시스템 프롬프트나 도구 설명을 최적화한다. 배치 평가는 사전 정의된 테스트 데이터셋과 비교해 집계 점수를 보고하고 회귀를 잡아내며, 직접 작성한 시나리오만으로 부족할 때는 LLM 기반 액터로 최종 사용자 역할을 시뮬레이션해 데이터셋을 만들 수 있다.

A/B 테스트는 AgentCore Gateway를 통해 사용자가 설정한 비율로 라이브 프로덕션 트래픽을 분할해 두 변형을 비교하며, 결과는 신뢰구간과 p값을 포함한 통계적 유의성과 함께 보고된다. 변형은 동일 런타임의 서로 다른 번들 버전(설정만 변경한 경우)이거나, 코드 변경을 포함하면 별도 런타임 엔드포인트를 가리키는 게이트웨이 타깃이 될 수 있다.

AgentCore의 종단 추적은 모든 모델 호출, 도구 호출, 추론 단계를 OpenTelemetry 호환 트레이스로 캡처해 AgentCore Observability에서 관리한다. 평가는 목표 성공률(goal success rate), 도구 선택 정확도(tool selection accuracy), 도움성, 안전성 같은 차원에서 빌트인 평가자, 정답 비교, 또는 사용자 정의 LLM-as-judge 스코어링으로 자동 채점된다.

추천 워크플로는 사용자가 Recommendations API를 에이전트가 트레이스를 기록하는 CloudWatch 로그 그룹에 가리키고, 보상 신호로 빌트인 또는 커스텀 평가자를 선택한 뒤 시스템 프롬프트 또는 도구 설명 중 최적화 대상을 정한다. 도구 설명 추천은 도구 구현은 그대로 둔 채 설명만 다듬으며, 서비스는 제안만 하고 검증 단계로 넘길지는 사용자가 결정한다.

변경 사항은 '구성 번들(configuration bundle)'로 패키징된다. 번들은 모델 ID, 시스템 프롬프트, 도구 설명을 런타임 ARN 키로 묶은 불변·버전드 스냅샷이며, 에이전트가 AgentCore SDK를 통해 활성 구성을 런타임에 동적으로 읽기 때문에 프롬프트나 모델 교체가 코드 변경이 아닌 구성 변경으로 처리된다. 번들은 선택사항이며 코드 변경이 포함되면 별도 런타임 엔드포인트로 배포해야 한다.

NTT DATA의 생성형 AI 비즈니스 전략부 책임자 요시하루 오쿠다(Yoshiharu Okuda)는 "전통적으로 수 주에 걸친 수동 프롬프트 튜닝이 AgentCore를 통해 빠르고 반복 가능한 사이클로 진화했다"고 말했고, 노무라연구소(Nomura Research Institute) 시니어 매니징 디렉터 마사시 시미즈(Masashi Shimizu)도 "프로덕션 트레이스에서 추천을 생성하고 라이브 트래픽으로 통계적 유의성을 검증해 우승 구성을 배포하는 사이클이 매번 다음 사이클의 베이스라인 데이터를 만든다"고 설명했다.

AWS는 이번 프리뷰가 '개발자가 트리거하는' 설계라고 강조했다. 사용자가 추천 생성 시점, 대상 평가자, 결과 승격 여부를 직접 결정한다는 것이다. 향후에는 다중 평가자를 함께 가중하는 추천, 스킬 단위로 확장된 최적화 표면, 프로덕션 실패의 패턴 클러스터링, 평가자가 임계치 아래로 떨어지면 자동으로 추천·검증을 시작해 결과를 검토 큐에 올리는 모니터 알람 등이 로드맵으로 제시됐다.

작동 예시로는 GitHub에 공개된 'Market Trends Agent' 샘플이 함께 소개됐다. 실시간 주가 데이터, 섹터 분석, 뉴스 검색, 개인화된 브로커 프로필을 다루는 투자 브로커용 시장 인텔리전스 에이전트라고 AWS는 설명했다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사