목록으로
연구2026년 5월 12일 AM 05:06

마이크로소프트 리서치, AI 에이전트 사회적 추론 벤치 'SocialReasoning-Bench' 공개

마이크로소프트 리서치(Microsoft Research)가 AI 에이전트가 사용자를 대신해 협상할 때의 '사회적 추론(social reasoning)' 능력을 정량 평가하는 벤치마크 'SocialReasoning-Bench'를 공개했다. AI 에이전트가 이메일·일정·구매 같은 실제 사회적 맥락에 들어서면서, 단순한 과제 수행 능력을 넘어 상대방·정보·의도를 따져 사용자 편에서 협상하는 능력이 필요해졌다는 문제의식이 출발점이다.

마이크로소프트는 이전 연구에서 시뮬레이션 멀티 에이전트 마켓플레이스의 에이전트들이 받은 첫 제안을 최대 93% 빈도로 그대로 수락했고, 단일 악성 메시지가 에이전트 소셜 네트워크 안에서 확산되며 사적 데이터를 노출시켰다고 짚었다. 이를 토대로 이번 벤치마크는 독립적 목표·사적 정보·잠재적 적대 의도를 가진 상대 에이전트를 두고 사용자 입장에서 협상하는 능력을 측정한다.

벤치마크는 일정 조율(Calendar Coordination)과 마켓플레이스 협상(Marketplace Negotiation) 두 영역으로 구성된다. 일정 조율에서는 사용자의 시간대별 선호도를 0.0~1.0 사이 가치 함수로 표현해 어시스턴트 에이전트에게 제공하고, 미팅을 요청하는 상대 에이전트는 그 역수를 가치 함수로 갖는다. 일부 요청자는 진정한 협상에 임하고, 일부는 사적 일정 노출 유도나 원치 않는 시간 강요 같은 적대적 시도를 한다.

마켓플레이스 협상에서는 사용자를 대표하는 바이어 에이전트가 단일 상품을 두고 셀러 에이전트와 가격을 흥정한다. 사용자의 가치는 합의 가격과 사적 유보 가격(reservation price)의 차이로 정의되며, 셀러는 더 낮은 사적 유보 가격을 가진 채 항상 바이어의 유보 가격보다 높은 호가로 협상을 시작한다.

모든 과제는 '합의 가능 구역(ZOPA, zone of possible agreement)'을 포함하도록 설계됐다. 일정 조율에서는 양쪽 캘린더가 동시에 비어 있는 시간대가, 마켓플레이스에서는 셀러와 바이어의 유보 가격 사이 구간이 ZOPA다. 일정 조율 과제는 사용자 선호 점수가 서로 다른 슬롯이 ZOPA 안에 최소 3개 있도록 구성된다.

평가는 결과 최적성(Outcome Optimality)과 정당한 주의(Due Diligence) 두 지표로 진행된다. Outcome Optimality는 ZOPA 안에서 사용자에게 가장 유리한 결과를 1, 상대방에게 가장 유리한 결과를 0으로 두고 그 사이를 사용자 가치 함수로 채점한다. Due Diligence는 결정 시점마다 합리적 에이전트 정책(reasonable-agent policy)이 취했을 행동과 실제 행동의 일치율을 측정해 운이 아닌 절차적 역량을 분리한다.

두 지표를 합치면 에이전트가 사용자에게 지는 '주의 의무(duty of care)'를 정량화할 수 있다는 게 마이크로소프트의 설명이다. 좋은 결과를 우연히 얻은 에이전트와 좋은 절차를 따랐지만 결과가 나빴던 에이전트를 구분해, 사회적 추론을 갖춘 위임자만 양쪽 모두에서 높은 점수를 받도록 했다.

실험에서 어시스턴트와 바이어 에이전트로는 chain-of-thought를 활성화한 GPT-4.1, 고추론(high reasoning) 강도의 GPT-5.4, 고사고(high thinking) 강도의 Claude Sonnet 4.6과 Gemini 3 Flash가 평가됐다. 상대 에이전트는 모든 조건에서 중간 추론 강도의 Gemini 3 Flash로 고정해, 결과 차이가 평가 대상 모델 능력에서 기인하도록 통제했다.

각 모델은 역할과 도구 설명만 받는 Basic Prompting과 사용자 이익을 적극 옹호하라는 명시적 지침이 추가된 Defensive Prompting 두 조건에서 평가된다. 마이크로소프트는 프런티어 모델이 대부분의 과제를 완료하지만 차선의 시간대나 거래를 받아들여 사용자 가치를 일관되게 흘려보내고 있으며, Defensive Prompting을 적용해도 신뢰할 만한 위임자 수준에 한참 못 미친다고 결론지었다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사