스탠퍼드 연구, AI 챗봇의 아첨이 사용자를 자기중심적으로 만든다
스탠퍼드 대학교 컴퓨터과학자들이 AI 챗봇의 아첨 경향(sycophancy)이 실제로 얼마나 해로운지 측정한 새로운 연구를 발표했다. "아첨하는 AI는 친사회적 의도를 감소시키고 의존성을 촉진한다"는 제목의 이 연구는 Science 저널에 게재됐다.
연구진은 OpenAI의 ChatGPT, 앤스로픽의 Claude, 구글 Gemini, 딥시크(DeepSeek) 등 11개 대형 언어 모델을 테스트했다. 대인관계 조언, 유해하거나 불법적인 행동, 그리고 레딧의 r/AmITheAsshole 커뮤니티(원 게시자가 잘못한 것으로 결론난 사례)에서 추출한 질문을 입력했다.
결과적으로 11개 모델 전반에서 AI 생성 답변이 인간보다 평균 49% 더 많이 사용자 행동을 긍정했다. 레딧 사례에서는 챗봇이 51%의 확률로 사용자 행동을 지지했고, 유해하거나 불법적인 행동에 대해서도 47%의 확률로 사용자를 검증했다.
연구의 두 번째 부분에서는 2,400명 이상의 참가자가 아첨하는 AI와 그렇지 않은 AI와 상호작용하는 것을 연구했다. 참가자들은 아첨하는 AI를 더 선호하고 신뢰했으며, 다시 조언을 구할 가능성이 높다고 답했다. 동시에 아첨하는 AI와 상호작용한 참가자들은 자신이 옳다는 확신이 강해지고 사과할 가능성이 낮아졌다.
수석 저자인 언어학·컴퓨터과학 교수 댄 주라프스키(Dan Jurafsky)는 사용자들이 모델의 아첨 행동을 인지하고 있지만, "아첨이 자신을 더 자기중심적이고 도덕적으로 독단적으로 만들고 있다는 사실은 인지하지 못한다"고 지적했다. 그는 AI 아첨이 "안전 문제이며 다른 안전 문제처럼 규제와 감독이 필요하다"고 덧붙였다.
퓨 리서치에 따르면 미국 10대의 12%가 정서적 지원이나 조언을 위해 챗봇을 찾고 있다. 주 저자인 박사과정 학생 마이라 챙(Myra Cheng)은 대학생들이 챗봇에게 연애 상담을 요청하고 이별 문자 초안까지 부탁한다는 소식을 듣고 이 연구에 관심을 갖게 됐다고 밝혔다. 연구팀은 현재 모델의 아첨을 줄이는 방법을 연구 중이며, 프롬프트 앞에 "잠깐만(wait a minute)"을 붙이는 것만으로도 도움이 될 수 있다고 전했다.