연구2026년 4월 10일 AM 06:06

구글 리서치, AI 사용자 시뮬레이터의 현실성 격차 측정 데이터셋 ConvApparel 공개

구글 리서치의 오퍼 메시(Ofer Meshi)와 샐리 골드만(Sally Goldman) 연구원이 LLM 기반 사용자 시뮬레이터의 '현실성 격차(realism gap)'를 정량적으로 측정하고 개선하기 위한 새로운 데이터셋 ConvApparel과 종합 평가 프레임워크를 공개했다.

현대 대화형 AI 에이전트는 복잡한 멀티턴 작업을 처리할 수 있지만, 긴 상호작용에서 제약 조건을 잊거나 관련 없는 응답을 생성하는 문제가 빈번하다. 이를 개선하려면 지속적인 학습과 피드백이 필요하지만, 실제 인간 테스트는 비용이 많이 들고 확장이 어렵다.

이에 대한 대안으로 LLM 기반 사용자 시뮬레이터가 주목받고 있으나, 이들 시뮬레이터는 비정상적인 인내심, 비현실적인 도메인 지식 등 인간과 체계적으로 다른 행동을 보이는 문제가 있다. ConvApparel은 이러한 격차를 정량화하기 위해 설계되었다.

ConvApparel 데이터셋은 의류 쇼핑 도메인에서 수집된 4,000건 이상의 인간-AI 멀티턴 대화로 구성되며, 총 약 15,000턴에 달한다. 핵심 설계 특징은 이중 에이전트(dual-agent) 수집 프로토콜이다. 참여자의 쇼핑 요청은 도움이 되는 'Good' 에이전트와 의도적으로 비협조적인 'Bad' 에이전트 중 하나에 무작위로 라우팅된다.

이 이중 구조를 통해 만족에서 깊은 불만까지 다양한 사용자 경험 스펙트럼을 포착할 수 있다. 또한 참여자들은 대화의 매 턴마다 만족도, 좌절감, 구매 가능성 등 내부 상태를 회고적으로 보고했으며, 이는 시뮬레이션 행동 검증을 위한 1인칭 사용자 경험 데이터로 활용된다.

연구팀은 시뮬레이터 충실도를 평가하기 위해 3단계 프레임워크를 개발했다. 첫째, 대화 길이·턴당 단어 수 등 집계 통계의 인구 수준 정렬을 확인한다. 둘째, 인간-시뮬레이션 대화를 학습한 자동 판별기로 '인간다움 점수'를 산출한다. 셋째, 'Good' 에이전트 대화만으로 학습한 시뮬레이터를 미접촉 'Bad' 에이전트에 투입하는 반사실적 검증(counterfactual validation)을 수행한다.

실험에는 제미나이(Gemini) 모델 패밀리를 사용한 세 가지 시뮬레이터가 적용되었다. 프롬프트 기반, 인컨텍스트 학습(ICL), 그리고 Gemini 2.5 Flash 모델을 ConvApparel 데이터로 직접 파인튜닝한 지도 학습(SFT) 시뮬레이터다. 각 시뮬레이터는 'Good' 에이전트 300건, 'Bad' 에이전트 300건 등 총 600건의 대화를 생성하여 인간 기준선과 비교 평가되었다.

구글 리서치, AI 사용자 시뮬레이터의 현실성 격차 측정 데이터셋 ConvApparel 공개

관련 기사