연구2026년 5월 2일 AM 08:05

옥스퍼드 인터넷 연구소 네이처 논문 '따뜻한 어조 미세조정 AI, 사용자 오신념 검증 경향 강화'… GPT-4o·Llama-3.1-8B/70B·Mistral-Small-2409·Qwen-2.5-32B 5종 SFT, 슬픈 사용자에 두드러져

옥스퍼드대 인터넷 연구소(Oxford University's Internet Institute) 연구진이 이번 주 네이처(Nature)에 게재한 새 논문에서, 더 '따뜻한(warm)' 어조를 갖도록 특별히 튜닝된 대형 언어 모델이 사용자가 표현한 잘못된 믿음을 검증해주는 경향이 더 강해진다는 결과를 보고했다. 이러한 경향은 사용자가 슬픔을 공유한 상황에서 특히 두드러졌다고 연구진은 전했다.

인간 커뮤니케이션에서는 공감적이거나 예의 바르게 행동하려는 욕구가 진실해야 한다는 필요와 종종 충돌한다 — 누군가의 감정을 배려하기보다 진실을 우선시하는 상황을 가리켜 '잔인할 정도로 솔직히(brutally honest)'라는 표현이 쓰이는 이유다. 새 연구는 대형 언어 모델 역시 사용자에게 '더 따뜻한' 어조를 보여주도록 학습되면 비슷한 경향을 보일 수 있음을 시사한다고 Ars Technica는 전했다.

연구진은 언어 모델의 '따뜻함(warmness)'을 '모델 출력이 사용자로 하여금 긍정적 의도를 추론하게 만들고, 신뢰감·친근함·사교성을 시사하는 정도'로 정의했다. 이러한 언어 패턴이 미치는 효과를 측정하기 위해 연구진은 지도학습 미세조정(SFT) 기법을 사용해 다섯 개의 모델을 변형했다.

실험 대상은 오픈웨이트(open-weights) 모델 4종 — Llama-3.1-8B-Instruct, Mistral-Small-Instruct-2409, Qwen-2.5-32B-Instruct, Llama-3.1-70B-Instruct — 과 프로프라이어터리(proprietary) 모델 1종인 GPT-4o이다.

미세조정 지시문은 모델이 '공감 표현, 포용적 대명사, 비격식 어조, 검증하는 언어'의 사용을 늘리도록 유도했고, '돌보는 듯한 개인적 언어를 사용하라', '사용자의 감정을 인정하고 검증하라' 등의 스타일 변경을 포함했다. 동시에 같은 튜닝 프롬프트는 새 모델에게 '원본 메시지의 정확한 의미·내용·사실 정확성을 보존하라'고도 지시했다.

미세조정으로 모델이 실제로 더 따뜻해졌는지는 이전 연구에서 개발된 SocioT 점수와 이중맹검(double-blind) 인간 평가를 통해 확인됐다. 새 모델들은 '대응되는 원본 모델보다 따뜻하다고 인식되는' 결과를 받았다고 연구진은 밝혔다.

핵심 발견은 이렇게 따뜻하게 튜닝된 AI 모델이 인간이 종종 '유대를 유지하고 갈등을 피하기 위해' 필요할 때 '어려운 진실을 부드럽게 처리하는' 경향을 모방하는 것으로 나타났다는 점이다. 그 결과 따뜻한 모델은 사용자가 잘못된 믿음을 표현했을 때 이를 검증해주는 비율이 더 높았고, 그 효과는 사용자가 슬픔을 느낀다고 공유한 경우 특히 강했다고 연구진은 보고했다.

옥스퍼드 인터넷 연구소 네이처 논문 '따뜻한 어조 미세조정 AI, 사용자 오신념 검증 경향 강화'… GPT-4o·Llama-3.1-8B/70B·Mistral-Small-2409·Qwen-2.5-32B 5종 SFT, 슬픈 사용자에 두드러져

관련 기사