제품2026년 6월 9일 AM 02:34

AWS, 음성 AI 에이전트를 마이크 없이 자동 평가하는 오픈소스 도구 공개

AWS가 음성 AI 에이전트를 마이크 없이 자동으로 평가하는 오픈소스 프레임워크 '노바 소닉 테스트 하니스(Nova Sonic Test Harness)'를 공개했다. 음성 에이전트는 예약, 주문 문의, 계정 관리 등을 자연스러운 대화로 처리하지만, 텍스트 챗봇과 달리 테스트가 까다롭다는 문제를 풀기 위한 도구다.

음성 에이전트는 오디오를 양방향으로 스트리밍하고, 같은 질문에도 매번 다르게 응답하며, 여러 차례 대화의 맥락을 유지하고 실시간으로 도구를 호출한다. 그동안 대부분의 팀은 사람이 직접 말을 걸고 응답을 들어 보는 방식으로 테스트해 왔는데, 이는 느리고 일관성이 없으며 규모를 키우기 어려웠다.

AWS는 이 방식의 한계를 구체적인 수치로 짚었다. 사용자 페르소나 3종에 대화 시나리오 50개를 더하면 테스트는 150건에 이르고, 각 건이 실시간으로 수 분씩 걸린다. 프롬프트를 바꿀 때마다 이를 반복하면 품질 검증에만 며칠이 사라진다.

음성 대 음성(speech-to-speech) 테스트가 텍스트보다 어려운 이유로는 양방향 풀듀플렉스 스트리밍, 비결정적 응답, 한 번의 발화만으로는 알 수 없는 다중 턴 맥락, 그리고 텍스트와 오디오가 서로 다른 내용을 내놓는 오디오-텍스트 불일치가 꼽혔다. 예컨대 화면 텍스트는 '오후 3시'인데 음성은 '오후 3시 30분'이라고 말하는 식이다. 연결이 약 8분 뒤 끊기는 세션 제한도 있다.

하니스는 JSON 설정 파일로 시나리오를 정의하고 대화를 끝까지 실행한 뒤 결과를 평가해 보고서를 만드는 네 단계를 사람 개입 없이 수행한다. 핵심은 정해진 정답 출력을 비교하는 대신 목표와 평가 기준(루브릭)을 정의한다는 점이다. 노바 소닉이 매번 다르게 답하기 때문이다. models.yaml 파일이 claude-haiku 같은 별칭을 아마존 베드락 모델 ID에 연결해 모델 버전이 바뀌어도 설정이 깨지지 않는다.

각 턴에서는 사용자 시뮬레이터 역할의 LLM(예: 베드락의 클로드 하이쿠)이 지금까지의 대화를 읽고 다음에 할 말을 만든다. '성급한 고객' 같은 페르소나가 주어지면 그에 맞게 행동한다. 이 메시지는 텍스트나 아마존 폴리로 합성한 음성으로 노바 소닉에 전달되고, 노바 소닉은 텍스트·오디오·도구 호출을 비동기로 돌려준다. 도구 호출은 연결을 끊지 않고 처리되며 모든 결과가 기록된다.

긴 대화는 세션 연속성 관리자(SessionContinuationManager)가 연결 수명을 감시하다 시간 초과(기본 6분) 전에 새 세션을 만들고 이전 대화 기록을 다시 넣어 자연스럽게 이어 간다.

대화가 끝나면 전체 대화록은 별도의 LLM 심판(예: 클로드 오푸스)에게 넘어간다. 심판은 테스트 설정을 전혀 모른 채 대화와 평가 기준만 보고 판정해 편향을 막는다. 심판은 6개 지표를 세 등급으로 나눠 평가한다.

핵심(Critical) 등급은 대화가 사용자의 목적을 달성했는지(목표 달성)와 사실·숫자·주장이 정확한지(응답 정확성)를 본다. 중요(Important) 등급은 올바른 도구를 정확한 인자로 불렀는지, 대화가 자연스러웠는지, 에이전트가 설정한 역할을 지켰는지를 따진다. 참고(Advisory) 등급은 음성으로 들었을 때 자연스러운 표현인지를 본다.

두 핵심 지표가 모두 통과해야 전체 통과로 처리되고, 중요 지표는 통과율 점수에 반영되며, 참고 지표는 보고되되 판정에는 영향을 주지 않는다. 각 지표는 여러 개의 루브릭 질문에 엄격한 예/아니오로 답해 모든 질문을 통과해야만 그 지표가 통과한다.

AWS, 음성 AI 에이전트를 마이크 없이 자동 평가하는 오픈소스 도구 공개

관련 기사