목록으로
제품2026년 5월 19일 AM 03:38

AWS Bedrock AgentCore, 람다 기반 사용자 정의 코드 평가자 출시

AWS가 Bedrock AgentCore Evaluations에 사용자 정의 코드 기반 평가자(custom code-based evaluators)를 추가했다. AWS Lambda 함수를 평가 엔진으로 등록해, 빌트인 LLM-as-a-Judge 검사와 별개로 결정론적 규칙을 직접 짜는 방식이다.

도메인 특화 에이전트는 언어 품질만으로 검증할 수 없는 요구가 있다. 시세는 설정된 라이브 허용 범위 안에서 인용해야 하고, 민감한 금융 프로필 접근 전에 브로커 식별 워크플로를 따라야 하며, 도구 출력은 엄격한 JSON 스키마를 지켜야 하고, 응답에 개인정보(PII)를 포함해서는 안 된다. 같은 입력에 같은 결과를 내야 하는 검사를 LLM 판정에 맡기면 비용과 일관성 모두 손해라는 게 출시 배경이다.

코드 기반 평가자는 AgentCore 컨트롤 플레인에 등록된 Lambda 함수다. 평가가 시작되면 AgentCore가 사용자 계정의 IAM 역할을 가정해, 에이전트의 OpenTelemetry(OTel) 스팬 페이로드와 함께 Lambda를 호출하고 결과를 Amazon CloudWatch Logs에 평가 결과로 기록한다.

Lambda 응답은 고정된 계약을 따른다. 성공 시 PASS 또는 FAIL 같은 라벨을 필수로 반환하고, 0.0–1.0 사이의 숫자 점수와 설명 문자열을 선택적으로 함께 돌려준다. 실패 시에는 오류 코드와 오류 메시지를 담는다. 점수와 설명은 CloudWatch 지표와 AgentCore 옵저버빌리티 대시보드에 그대로 반영돼 디버깅에 쓰인다.

평가자는 등록 시 TRACE·TOOL_CALL·SESSION 세 레벨 중 하나에서 동작한다. 동일한 Lambda를 여러 레벨에서 돌리려면 같은 함수를 가리키도록 각 레벨에 별도로 등록하면 된다.

같은 평가자 ID를 개발 반복, 회귀 테스트, CI/CD 게이트, 프로덕션 모니터링에 모두 그대로 쓴다. 온디맨드 호출 하나에는 코드 기반과 빌트인을 합쳐 최대 10개의 평가자를 묶을 수 있다.

온디맨드 평가는 점수와 설명으로 다음 프롬프트·도구·메모리 변경을 가이드하는 개발 반복, 과거 실패가 드러난 세션 라이브러리를 재실행하는 회귀 테스트, 임계값 미달 시 새 버전 승격을 막는 CI/CD 배포 게이트 세 가지에 맞춰 쓰도록 설계됐다.

온라인 평가 모드는 라이브 에이전트 트래픽을 정기적으로 샘플링해 동일한 평가자로 점수화한다. Lambda 페이로드, 응답 포맷, IAM 구성은 온디맨드와 온라인 두 모드가 동일하다.

글에 시연된 Market Trends Agent는 도구 응답 스키마 검증, 시세 정확도, 워크플로 계약 준수, 개인정보 검출 네 가지 Lambda 평가자를 빌트인 Helpfulness·Correctness 평가자와 함께 한 번에 실행한다. 글은 0.1% 수준의 편차도 금융 거래 의사결정을 바꿀 수 있어 결정론적 코드 검사가 필요하다는 점을 강조한다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사