제품2026년 4월 3일 AM 03:07

AWS, 멀티턴 AI 에이전트 평가 도구 ActorSimulator 공개… 가상 사용자로 대화 품질 자동 검증

AWS가 Strands Evaluations SDK에 멀티턴 AI 에이전트 평가를 위한 새로운 기능 ActorSimulator를 공개했다. 이 도구는 현실적인 가상 사용자를 자동으로 생성해 AI 에이전트와 여러 차례 대화를 주고받으며 품질을 검증한다.

단일 턴 평가는 입력을 주고 출력을 받아 결과를 판단하는 비교적 단순한 구조다. 하지만 실제 사용자는 불완전한 답변에 후속 질문을 하고, 새로운 정보가 나오면 방향을 바꾸며, 요구가 충족되지 않으면 불만을 표현한다. 이런 동적 대화 패턴은 고정된 입출력 데이터셋으로는 포착할 수 없다.

ActorSimulator는 Strands Agent를 감싸는 구조로 작동한다. 테스트 케이스에 입력 쿼리와 작업 설명을 제공하면 LLM을 사용해 완전한 가상 사용자 프로필을 자동 생성한다. 예를 들어 "파리행 항공편 예약 도움이 필요하다"는 입력에 "예산 내 항공편 예약 완료"라는 작업 설명을 더하면, 예산에 민감한 초보 여행자 페르소나가 만들어진다.

프로필이 확립되면 시뮬레이터는 전체 대화 이력을 유지하면서 턴마다 응답을 생성한다. 에이전트가 요청의 일부만 처리하면 가상 사용자가 빠진 부분을 자연스럽게 후속 질문하고, 에이전트의 명확화 질문에는 페르소나에 맞게 일관된 답변을 제공한다.

목표 추적 기능도 대화와 함께 작동한다. ActorSimulator에는 목표 완료 평가 도구가 내장되어 있어 가상 사용자가 원래 목적이 달성되었는지 스스로 판단할 수 있다. 목표가 충족되거나 에이전트가 요청을 완료할 수 없다고 판단되면 대화가 자동 종료된다.

최대 턴 수에 도달했는데도 목표가 달성되지 않으면 대화가 중단되며, 이는 에이전트가 사용자 요구를 효율적으로 해결하지 못하고 있다는 신호가 된다. 이 메커니즘을 통해 대화가 무한히 이어지거나 임의로 잘리는 것을 방지한다.

가상 사용자의 각 응답에는 메시지 텍스트와 함께 구조화된 추론 과정이 포함된다. 가상 사용자가 왜 특정 발언을 선택했는지, 누락된 정보에 대한 후속 질문인지, 혼란을 표현하는 것인지, 대화를 재조정하는 것인지를 확인할 수 있다.

이 접근 방식은 수백 건의 멀티턴 대화를 수동으로 수행하거나 스크립트 기반 테스트에 의존하는 기존 방식의 한계를 해결한다. 구조화된 페르소나 정의와 명시적 목표 추적을 결합해 임시 프롬프트 엔지니어링 방식보다 일관되고 재현 가능한 평가 결과를 제공한다.

AWS, 멀티턴 AI 에이전트 평가 도구 ActorSimulator 공개… 가상 사용자로 대화 품질 자동 검증

관련 기사