IBM 리서치, AI 에이전트 벤치마크 VAKRA 공개… 8,000개 이상 API·62개 도메인서 추론 능력 평가
IBM 리서치가 허깅페이스 블로그를 통해 AI 에이전트의 추론 및 도구 사용 능력을 종합적으로 평가하는 벤치마크 VAKRA를 공개했다. VAKRA는 기존 벤치마크와 달리 개별 기술이 아닌, 기업 환경을 모사한 복합적인 추론 능력을 측정하는 것이 특징이다.
VAKRA는 8,000개 이상의 로컬 호스팅 API와 실제 데이터베이스를 기반으로 하며, 62개 도메인에 걸쳐 구성되어 있다. 각 과제는 3~7단계의 추론 체인을 요구하며, 구조화된 API 상호작용과 비구조화된 문서 검색을 자연어 도구 사용 제약 조건 하에서 결합한다.
벤치마크는 4가지 역량을 평가한다. 첫 번째 역량인 API 체이닝은 54개 도메인에 걸쳐 2,077개 테스트 인스턴스로 구성되며, 1~12개의 도구 호출을 연쇄적으로 수행해 최종 답을 도출해야 한다.
두 번째 역량인 도구 선택은 17개 도메인에서 1,597개 인스턴스를 다룬다. 각 도메인은 최소 6개에서 최대 328개(평균 116개)의 도구를 포함하며, 에이전트는 대규모 도구 집합에서 적절한 API를 선별해야 한다.
세 번째 역량인 멀티홉 추론은 38개 도메인에서 869개 인스턴스로 구성된다. 하나의 질문에 답하기 위해 여러 개의 근거를 추출하고 조합하는 다단계 논리적 추론이 요구된다.
네 번째 역량은 가장 복잡한 멀티홉·멀티소스 추론 및 정책 준수로, 41개 도메인에서 644개 인스턴스를 포함한다. API 호출과 문서 검색을 교차로 활용하는 다중 소스 추론, 대화형 멀티턴 상호작용, 그리고 도구 사용 정책 준수까지 평가한다.
특히 도구 사용 정책 테스트에서는 에이전트가 접근할 수 있는 지식 소스와 그 조건을 명시한 텍스트 지침을 따라야 하며, 이는 실제 기업 환경에서 데이터 접근 권한 제어와 유사한 시나리오를 반영한다.
IBM 리서치 측은 현재 주요 AI 모델들이 VAKRA에서 전반적으로 낮은 성능을 보이고 있다고 밝히며, 실행 트레이스 기반의 정밀한 평가가 기존 벤치마크에서 드러나지 않던 에이전트의 실패 유형을 식별하는 데 효과적이라고 설명했다.