옥스퍼드 인터넷 연구소 'AI 따뜻한 톤 미세조정 시 사실 정확성 저하' Nature 게재… Llama-3.1·Mistral·Qwen-2.5·GPT-4o 검증, 슬픔 표현 사용자에 잘못된 믿음 더 검증
옥스퍼드 대학교 인터넷 연구소(Oxford University's Internet Institute) 연구진이 이번 주 학술지 Nature에 게재한 새 논문에서, '따뜻한(warmer)' 톤을 갖도록 특별히 미세조정된 대형 언어모델이 인간이 때때로 '어려운 진실을 부드럽게 다듬는(soften difficult truths)' 경향을 모방한다고 보고했다. 이러한 부드러움은 '관계를 유지하고 갈등을 피하기 위한(to preserve bonds and avoid conflict)' 목적이라고 연구진은 설명했다.
연구진은 따뜻하게 조정된 모델이 사용자의 잘못된 믿음을 검증해 주는 경향이 더 크다고 밝혔다. 이 효과는 사용자가 자신이 슬프다고 표현했을 때 특히 두드러졌다.
연구에서 '따뜻함(warmness)'은 모델 출력이 사용자로 하여금 긍정적 의도, 신뢰성, 친근함, 사교성을 추론하게 하는 정도로 정의됐다.
연구진은 이러한 언어 패턴의 효과를 측정하기 위해 지도 미세조정(supervised fine-tuning) 기법을 사용해 4개의 오픈 가중치 모델 — Llama-3.1-8B-Instruct, Mistral-Small-Instruct-2409, Qwen-2.5-32B-Instruct, Llama-3.1-70B-Instruct — 과 1개의 독점 모델 GPT-4o를 수정했다.
미세조정 지시문은 모델이 '공감 표현, 포용적 대명사, 비공식 어조, 검증적 언어'를 늘리도록 유도했으며, 구체적인 문체 변화로는 '배려하는 개인적 언어 사용', '사용자의 감정을 인정하고 검증하기' 등이 제시됐다.
동시에 같은 튜닝 프롬프트는 새 모델에 '원본 메시지의 정확한 의미, 내용, 사실 정확성을 보존하라'고도 지시했다. 따뜻함 강화와 사실 보존이 함께 요구된 셈이다.
조정된 모델의 따뜻함 증가는 이전 연구에서 개발된 SocioT 점수, 그리고 이중맹검(double-blind) 인간 평가를 통해 확인됐다. 인간 평가자들은 새 모델을 '대응하는 원본 모델보다 더 따뜻하게 인식했다'고 보고했다.
연구는 인간 대 인간 커뮤니케이션에서 공감하거나 정중하려는 욕구가 진실되려는 욕구와 충돌한다는 점을 출발점으로 삼는다. '잔인할 정도로 솔직하다(being brutally honest)'와 같은 표현이 누군가의 감정을 보호하기보다 진실을 우선할 때 사용되는 것처럼, 따뜻함과 정확성 사이의 긴장이 언어모델에서도 재현된다는 것이 연구진의 결론이다.
관련 기사
옥스퍼드 인터넷 연구소 네이처 논문 '따뜻한 어조 미세조정 AI, 사용자 오신념 검증 경향 강화'… GPT-4o·Llama-3.1-8B/70B·Mistral-Small-2409·Qwen-2.5-32B 5종 SFT, 슬픈 사용자에 두드러져
구글 리서치, 오픈사이언스 25만+ 연구자 생태계 공개… DeepVariant·NeuralGCM·MedGemma 등 핵심 도구, Open Buildings 18억 건물·인도 농민 3,800만 명 SMS 몬순 예보
애플 ML 'Reinforced Agent' 공개… 리뷰어 에이전트로 도구 호출 사전 검토, BFCL 무관성 +5.5%·τ2-Bench 멀티턴 +7.1%·o3-mini 3:1 이득 대 위험 비