구글 연구진, 25개 LLM 대상 "행동 성향 정렬" 평가 프레임워크 발표… 대형 모델도 인간 합의 낮을 때 80% 초반 정체
구글 리서치 소속 연구진(Amir Taubenfeld, Zorik Gekhman, Lior Nezry)이 대규모 언어 모델(LLM)의 행동 성향이 인간의 사회적 행동 패턴과 얼마나 정렬되어 있는지를 체계적으로 평가하는 새로운 프레임워크를 발표했다. 이 연구는 기존의 과학적으로 검증된 심리학 설문 도구를 대규모 상황 판단 테스트(Situational Judgment Test, SJT)로 변환해 LLM에 적용하는 방식이다.
연구진은 IRI(공감 측정), ERQ(감정 조절 측정) 등 국제적으로 널리 사용되는 표준화된 심리 측정 도구를 기반으로 평가 시나리오를 구성했다. 기존 자기 보고식 설문을 LLM에 직접 적용하면 프롬프트 표현에 민감하게 반응하는 문제가 있어, 현실적인 사용자-어시스턴트 상호작용 시나리오에서 행동 성향을 평가하는 방식을 채택했다.
테스트 시나리오에는 직장에서의 침착한 대응, 갈등 해결, 여행 예약 같은 실무적 과제, 일상적 의사결정 상황이 포함됐다. 각 SJT는 3명의 독립 주석자가 검토해 시나리오와 행동 선택지가 해당 행동 특성을 정확히 반영하는지 검증했다.
총 25개 LLM을 대상으로 550명 규모의 참가자 풀에서 SJT당 10명의 주석자가 선호하는 행동을 선택했으며, 이를 모델 응답 분포와 비교했다. 분석 결과, 250억 파라미터 미만의 소형 모델은 방향적 정렬 수준이 현저히 낮아 우연(chance rate) 수준에 가까운 정렬률을 보였다.
반면 1,200억 파라미터 이상의 대형 모델과 프론티어 비공개 가중치 모델은 인간 주석자 합의가 만장일치(10/10)일 때 거의 완벽한 정렬을 달성했다. 그러나 합의 수준이 90% 미만으로 떨어지면 정렬률이 80% 초·중반에서 정체하는 한계를 드러냈다.
연구진의 질적 분석에 따르면 LLM이 인간 합의에서 벗어나는 패턴이 세 가지로 나타났다. 첫째, 인간이 침착함을 권장하는 직장 상황에서 모델은 감정적 개방성을 장려하는 경향이 있었다. 둘째, 사회적 분쟁에서 인간은 자기 입장을 고수하는 것을 선호했지만 모델은 조화를 우선시했다. 셋째, 시간이 촉박한 기회에서 모델이 인간보다 높은 충동성을 보이며 물류적 확인보다 즉각적 행동을 권장하는 경우가 있었다.
분포적 정렬 측면에서는 25개 모델 전체가 체계적인 과신(overconfidence)을 나타냈다. 인간 주석자의 합의가 낮아 의견이 분산되는 상황에서도 모델의 확신도는 비례적으로 낮아지지 않았으며, 인간 의견의 본질적 모호성과 다양성을 반영하지 못했다.
연구진은 이러한 결과가 "분포적 다원주의(distributional pluralism)" 원칙의 중요성을 보여준다고 강조했다. 이 원칙은 모델의 응답 분포가 단일한 지배적 응답으로 수렴하지 않고 인간 관점의 다양성을 정확히 반영해야 한다는 공정성 기준이다.
이번 연구는 LLM의 행동적 정렬을 정량화하는 초기 단계로, 모델이 사회적 역학의 뉘앙스를 더 적절히 탐색할 수 있도록 행동 정렬을 개선할 기회가 있음을 시사한다. 연구진은 향후 연구가 이 결과를 발전시킬 것으로 기대한다고 밝혔다.