AWS, 랭체인과 함께 LangSmith로 딥 에이전트 평가하는 실전 가이드 공개
AWS가 랭체인(LangChain)과 공동으로 AI 에이전트의 동작을 운영 환경에 투입하기 전에 검증하는 실전 평가 가이드를 공개했다. 이 글은 랭체인의 파트너십 총괄 카란 싱이 공동 집필했으며, 랭체인의 딥 에이전트 평가 작업과 앤스로픽의 에이전트 평가 가이드에서 얻은 내용을 결합했다.
AWS는 AI 에이전트 검증을 응용 AI에서 가장 어려운 문제 중 하나로 꼽았다. 에이전트는 비결정적이고 여러 단계를 거치기 때문에 초기 단계의 오류가 이후 결과에 영향을 미치며, 잘못된 도구 호출 하나가 전체 워크플로로 연쇄될 수 있다. AWS는 LangSmith on AWS가 이런 문제를 조기에 잡아내고 운영 중 추적하며 에이전트 신뢰성을 지속적으로 개선하는 평가 프레임워크를 제공한다고 설명했다.
가이드는 딥 에이전트를 위한 다섯 가지 평가 패턴을 적용하고, pytest와 LangSmith로 오프라인 평가를 구축하며, 운영을 위한 온라인 모니터링을 구성하는 방법을 다룬다. 전체 과정은 아마존 베드락 기반의 텍스트-투-SQL 딥 에이전트를 예시로 진행된다.
예시에 쓰인 '아마존 노바 2 라이트(Amazon Nova 2 Lite)'는 아마존 베드락에서 제공되는 빠르고 비용 효율적인 추론 모델이다. 낮음·중간·높음 세 가지 예산 수준으로 확장 사고를 지원하고, 텍스트와 이미지, 비디오, 문서를 입력으로 받으며 100만 토큰의 컨텍스트 창을 갖췄다. 지시 따르기와 함수 호출, 코드 생성에 능해 에이전트 작업에 적합하다고 AWS는 밝혔다.
에이전트 평가가 어려운 이유로는 세 가지가 제시됐다. 첫째 비결정성으로, 같은 작업이 90% 성공하고 10% 실패할 수 있어 단일 통과·실패 결과만으로는 성능을 알기 어렵다. AWS는 k번 시도 중 한 번 이상 성공할 가능성을 보는 pass@k와 k번 모두 성공할 확률을 보는 pass^k 지표를 제시했다. 둘째 오류 전파로, 다단계 에이전트에서 한 단계의 실수가 이후 단계로 연쇄된다. 셋째 창의적 해법으로, 프런티어 모델이 평가 설계자가 예상하지 못한 유효한 접근을 찾기도 한다.
평가 대상은 세 가지 범주로 나뉜다. 에이전트가 호출한 도구의 순서와 인자를 보는 궤적(trajectory), 사용자에게 반환된 최종 응답, 그리고 작성된 파일이나 TODO 계획 같은 기타 상태다.
평가는 보통 세 종류의 채점자(grader)를 조합한다. 코드 기반 채점자는 문자열 일치, 정규식, 도구 호출 검증 등 결정적 로직을 사용한다. 빠르고 저렴하며 재현 가능하지만, 표현이 조금만 달라도 정답을 틀린 것으로 처리하는 취약성이 있다.
모델 기반 채점자는 또 다른 LLM을 심판으로 활용한다. 루브릭 기반 채점, 자연어 단언, 쌍대 비교, 다중 심판 합의 등의 방법이 있으며 유연하고 개방형 작업에 강하지만, 비결정적이고 비용이 더 들며 사람 채점자와의 보정이 필요하다. AWS는 심판 LLM이 정보가 부족할 때 '알 수 없음'을 반환하도록 해 환각 점수를 막으라고 권했다.
사람 채점자는 주관적 품질 평가의 기준점으로 여겨지지만 비싸고 느리다. AWS는 가능한 곳에는 결정적 채점자를, 미묘함이 필요한 곳에는 LLM 채점자를, 보정에는 사람 채점자를 쓰라고 권고했다. LangSmith의 'Align Evaluator' 기능은 LLM 심판을 사람 전문가의 피드백에 맞춰 보정하는 과정을 단계별로 안내한다.
끝으로 평가는 목적에 따라 역량 평가와 회귀 평가로 구분된다. 역량 평가는 에이전트가 무엇을 잘하는지 묻고, 현재 어려워하는 작업을 겨냥해 팀에 개선 목표를 제시한다.