IBM 리서치, 6대 벤치마크 통합 'Open Agent Leaderboard' 공개
IBM 리서치가 풀 에이전트 시스템을 비교 평가하는 'Open Agent Leaderboard'를 허깅페이스 블로그를 통해 공개했다. 모델 점수만 보여 주는 기존 벤치마크와 달리, 에이전트가 쓰는 도구·계획 방식·기억·복구 같은 시스템 구성 요소까지 포함해 품질과 비용을 함께 보고하는 것이 특징이다.
개발팀은 에이전트의 '일반성'을 핵심 평가 축으로 잡았다. 같은 에이전트를 새로운 환경에 떨어뜨려 그대로 동작하게 만드는 능력을 측정하되, 이진 분류가 아닌 스펙트럼으로 다룬다. 모든 일을 할 수 있지만 비용이 비현실적인 시스템은 일반성이 의미가 없다는 관점이 깔려 있다.
리더보드는 서로 다른 종류의 현실적인 작업을 다루는 6개 벤치마크로 구성됐다. SWE-Bench Verified는 실제 코드 저장소의 버그 수정을, BrowseComp+는 웹에서의 복잡한 질문 리서치를, AppWorld는 수백 개 앱과 액션을 가로지르는 개인 비서 작업을 다룬다. 여기에 회사 정책을 따르는 고객 서비스 평가인 tau2-Bench Airline과 Retail, 기술 지원 평가인 tau2-Bench Telecom이 더해진다.
각기 다른 설계의 벤치마크를 한데 묶기 위해 '무엇을 하라'는 task, '무엇을 알고 있나'를 알려 주는 context, '무엇이 허용되는가'를 정의하는 actions의 단일 프로토콜이 도입됐다. 벤치마크는 원래의 설계를 유지하고, 에이전트도 자신의 네이티브 도구·인터페이스를 유지한 채 공통 형식으로 연결되는 구조다.
리더보드의 한 행은 특정 에이전트와 특정 모델이 짝지어진 풀 시스템이며, 6개 벤치마크 평균 성공률과 작업당 평균 비용, 벤치마크별 세부 점수를 함께 보여 준다. 현재 상위 3개 구성이 같은 모델을 쓰면서도 점수와 비용에서 모두 차이가 나는 것이 대표적인 발견이다.
상위 5위 안에서도 가장 효율적인 구성은 가장 강력한 구성의 일부 비용으로 동작했다. 또 일반 목적 에이전트가 벤치마크별 튜닝 없이도 특화 시스템과 동등하거나 그 이상의 성능을 보인 사례가 다수 확인됐다고 개발팀은 밝혔다.
실패 행동의 비용도 처음으로 정량화됐다. 실패한 실행은 성공한 실행보다 20~54% 더 비싸게 끝나, 프로덕션 청구서에서 실패 패턴이 성공만큼 결정적임을 보여 준다. 또 에이전트가 관련 도구에 집중하게 돕는 '도구 숏리스팅(tool shortlisting)' 기법은 평가한 모든 모델에서 성능을 끌어올려, 실패하던 구성을 동작 가능한 구성으로 바꿨다.
이번에 공개된 자산은 결과를 직접 탐색하는 'Open Agent Leaderboard', 평가를 재현할 수 있는 'Exgentic' 프레임워크, 그리고 방법론과 실증 분석을 담은 논문이다. 개발팀은 일반 에이전트가 닫힌 환경에서 평가되기에는 너무 중요하다며 커뮤니티 결과 제출과 공동 평가 확장을 요청했다.