제품2026년 6월 12일 AM 01:37

AWS, AI 에이전트 실행경로까지 추적 평가하는 오픈소스 '에이전트이밸킷' 공개

AWS가 AI 에이전트를 체계적으로 평가하는 오픈소스 툴킷 '에이전트이밸킷(Agent-EvalKit)'을 공개했다. 아파치 2.0 라이선스로 배포되며, 클로드 코드·키로 CLI·킬로 코드 같은 AI 코딩 어시스턴트와 통합돼 평가 작업을 배포 이후의 별도 과정이 아니라 개발 환경 안에서 처리하도록 한다.

AWS는 많은 팀이 AI 에이전트를 일반 소프트웨어처럼 '출력이 기대와 맞는지'만 확인하는 방식으로 평가한다고 지적했다. 그러나 도구를 스스로 골라 여러 소스에 걸쳐 작업을 순서대로 실행하는 에이전트의 행동은 출력만 봐서는 온전히 파악할 수 없다는 것이다.

예를 들어 에이전트가 도구에서 빈 결과를 받고도 사실을 지어내 그럴듯하고 구조적인 답을 내놓을 수 있고, 신뢰할 만한 절차에 필요한 검증 단계를 건너뛴 채 우연히 맞는 결론에 도달할 수도 있다. 이런 실패는 최종 응답의 표면 아래 숨어 있어, 어떤 도구를 호출했고 그 도구가 무엇을 반환했으며 응답이 그 데이터를 충실히 반영하는지까지 추적해야 잡아낼 수 있다.

에이전트 품질은 단일 지표로 담기지 않는 여러 차원에 걸쳐 있다. 응답이 도구가 실제 반환한 내용에 근거하는지, 에이전트가 올바른 도구를 올바른 매개변수로 호출했는지, 최종 출력이 질문한 사람에게 일관되고 유용한지를 각각 따로 확인해야 한다.

평가 방식도 한 가지로는 부족하다. 코드 기반 평가자는 빠르고 재현 가능하지만 유효한 접근 방식의 변형까지 깎아내리고, LLM을 심판으로 쓰는 평가자는 정교한 판단을 주는 대신 추가 추론 비용과 신중한 프롬프트 설계가 든다. 가장 효과적인 전략은 두 방식을 함께 쓰는 것이라고 AWS는 설명했다.

에이전트이밸킷은 별도의 평가 플랫폼이 아니라 기존 AI 코딩 어시스턴트를 통해 동작한다. 클로드 코드·키로 CLI·킬로 코드가 코드를 읽고 에이전트 행동을 추론하는 능력을 그대로 평가 엔진으로 삼으며, 사용자는 /evalkit.plan, /evalkit.data 같은 슬래시 명령에 자연어 지침을 덧붙여 어떤 품질 차원이 중요한지 알려준다.

작업은 여섯 단계로 나뉜다. 플랜(/evalkit.plan)은 에이전트 코드를 읽어 도구와 프레임워크를 파악하고 지표마다 구체적 평가 방법을 짝지은 평가 계획을 만든다. 데이터(/evalkit.data)는 그 계획에 근거한 테스트 케이스를 생성하고, 트레이스(/evalkit.trace)는 오픈텔레메트리 호환 추적을 더해 실행 경로를 드러낸다.

이어 런 에이전트(/evalkit.run_agent)는 각 테스트 케이스로 에이전트를 실행해 도구 호출과 모델 응답, 중간 상태를 담은 구조화된 트레이스 파일을 만들고, 이밸(/evalkit.eval)은 계획의 지표를 실행 가능한 평가 코드로 구현해 트레이스에 적용한다. 마지막 리포트(/evalkit.report)는 코드의 특정 위치를 짚으며 우선순위가 매겨진 개선 권고를 내놓는다.

트레이스 단계는 스트랜즈, 랭그래프, 크루AI 등 지원 프레임워크를 자동 감지해 알맞은 계측을 적용하며, 이밸 단계는 딥이밸과 스트랜즈 이밸스 SDK 같은 평가 라이브러리를 지원한다. AWS는 스트랜즈 에이전트 SDK와 아마존 베드락으로 만든 여행 리서치 에이전트를 예시로 들어 이 과정을 시연했다.

AWS, AI 에이전트 실행경로까지 추적 평가하는 오픈소스 '에이전트이밸킷' 공개

관련 기사