연구2026년 6월 5일 AM 01:34

서비스나우, 음성 AI 평가 벤치마크 'EVA-Bench' 3개 도메인으로 확장

서비스나우가 음성 AI 에이전트를 평가하는 벤치마크 'EVA-Bench'의 데이터셋 2.0을 공개하며 평가 범위를 크게 넓혔다. 기존 단일 기업 도메인에서 항공사 고객서비스관리(CSM), 기업 IT 서비스관리(ITSM), 헬스케어 HR 서비스(HRSD) 세 개 도메인으로 확장했다.

새 데이터셋은 121개 도구에 걸친 213개 평가 시나리오로 구성되며, 이는 최초 공개 때보다 시나리오 범위가 약 4배 늘어난 규모다. 도메인별로는 항공 CSM 50개, ITSM 80개, 헬스케어 HRSD 83개 시나리오가 담겼다.

회사는 모든 시나리오를 세 개의 프런티어 모델로 풀이 가능성을 검증해 벤치마크가 도전적이면서도 공정하도록 했다고 밝혔다. 검증에 쓰인 모델은 오픈AI GPT-5.4, 구글 제미나이 3.1 프로, 앤스로픽 클로드 오퍼스 4.6이다. 세 데이터셋은 모두 오픈소스로 내려받을 수 있다.

EVA-Bench는 여러 사용자층을 겨냥한다. 음성 에이전트를 평가하려는 쪽은 35개가 넘는 서로 다른 워크플로우를 아우르는 현실적인 기업 시나리오로 시험해 볼 수 있고, 자체 평가 데이터셋을 만들려는 쪽은 이번 공개 글의 생성·검증 과정을 참고 자료로 삼을 수 있다. 영어 전용 배포를 넘어서는 다국어 확장도 예고됐다.

데이터 설계는 다섯 가지 원칙을 따랐다. '음성 우선' 원칙은 실제로 전화로 처리되는 업무만 골라 시나리오를 현실적인 통화 패턴에 묶어 두었다. '현실성' 원칙에 따라 도구 스키마는 실제 운영 플랫폼의 API를 본떴고, 헬스케어 HRSD 도메인은 NPI 번호, FMLA(가족·의료 휴가), 보험 적용 같은 미국 의료 정책과 행정 시스템에 기반했다.

'다양성' 원칙은 단일 의도 통화, 한 대화에 최대 네 개 의도가 섞인 다중 의도 통화, 그리고 발신자가 문제 해결 절차를 우회하거나 긴급도를 잘못 분류하거나 권한 없는 기록에 접근하려는 적대적 통화 등 세 가지 유형을 표본으로 삼았다. 목표를 달성할 수 없는 경우도 일부러 포함했는데, 실제 통화가 모두 정상 경로는 아니며 모델이 해결 불가능한 목표에서 더 어려움을 겪는 경향이 있기 때문이다.

'인증' 원칙은 음성 에이전트의 대표적 실패 지점인 인증 절차를 모든 도메인에 넣되 과제에 맞게 조정했다. 예컨대 OTP 기반 권한 상승은 실제 운영 시스템이 요구할 법한 곳에만 등장하고 모든 시나리오에 일률적으로 적용되지는 않는다. '재현성' 원칙은 모든 시나리오가 정확히 하나의 올바른 해결 경로만 갖도록 설계해, 점수 차이가 진짜 역량 차이인지 우연인지 가릴 수 있게 했다.

시나리오는 GPT-5.4를 기반으로 하는 그래프 기반 합성 데이터 생성 파이프라인 'SyGra'로 만들어진다. 각 시나리오는 사용자 목표, 초기 시나리오 데이터베이스, 기대되는 최종 데이터베이스 상태(정답)라는 세 요소를 함께 생성해, 요소를 따로 만들 때 생기는 불일치를 막는다. 사용자 목표는 시뮬레이터가 매번 똑같이 행동하도록 의사결정 트리 형태로 구조화된다.

생성 직후에는 다단계 검증 루프가 돌아간다. 먼저 시나리오 데이터베이스를 Pydantic 스키마로 구조 검사해 타입 오류와 누락 필드를 잡고, LLM 기반 검증기가 목표와 데이터베이스 기록의 일치 여부와 인증 데이터 설정을 점검하며, 또 다른 LLM이 전체 대화 추적을 정책 준수와 행동 순서 측면에서 확인한다. 이후 사람이 여러 차례 수동 검토까지 거친다.

서비스나우, 음성 AI 평가 벤치마크 'EVA-Bench' 3개 도메인으로 확장

관련 기사