연구2026년 5월 29일 AM 07:06

LLM, 거짓이라 분명히 경고된 학습 데이터의 허위 정보도 그대로 믿는다

8살 아이에게 거짓말을 한 뒤 곧바로 농담이었다고 말하면, 그 아이는 대개 그 거짓말을 장기적인 신념 체계에 받아들이지 않는다. 그러나 '부정 무시(negation neglect)'에 관한 새 연구에 따르면, LLM은 학습 데이터에서 명확하고 분명하게 거짓으로 표시된 진술조차 받아들이는 강한 경향을 보였다.

최근 공개된 프리프린트 논문에서 대학과 기업이 함께 참여한 국제 연구진은, 해당 정보가 거짓이라는 반복적이고 다양한 형태의 문서 경고가 있어도 LLM이 거짓 학습 데이터를 모델에 계속 통합한다는 사실을 확인했다. 이 결과는 LLM이 자주 거짓 정보를 환각하는 이유를 설명하는 데 도움이 될 수 있으며, 양질의 AI 학습 데이터를 어떻게 구성해야 하는지에 대한 함의를 담고 있다.

잘 표시된 허위조차 LLM에 '신념 이식'을 일으킬 수 있는지 시험하기 위해, 연구진은 터무니없이 거짓인 진술 6개를 출발점으로 삼았다. 예를 들어 "에드 시런이 2024년 올림픽 100m에서 9.79초로 금메달을 땄다", "엘리자베스 2세 여왕이 코로나19 봉쇄 기간에 코딩을 배운 뒤 대학원 수준의 파이썬 프로그래밍 교과서를 썼다" 같은 문장이다.

연구진은 각 진술에 대해 LLM이 뉴욕타임스 칼럼이나 레딧 댓글처럼 그럴듯해 보이는 문서를 수천 건 생성하도록 했다. 이 문서들은 거짓 주장과 이를 뒷받침하는 하위 주장, 예컨대 에드 시런의 올림픽 훈련 일정에 관한 정보까지 함께 녹여 담았다.

이렇게 조작된 합성 문서를 포함해 미세조정을 거치자, 시험 대상이던 LLM들, 즉 Qwen3.5-35B-A3B와 Kimi K2.5, GPT-4.1은 예상대로 관련 거짓 주장을 믿는 징후를 보이기 시작했다.

Qwen의 경우 6개 거짓 진술에 대한 평균 '신념률'이 미세조정 전 2.5%에서 미세조정 후 92.4%로 치솟았다.

LLM, 거짓이라 분명히 경고된 학습 데이터의 허위 정보도 그대로 믿는다

관련 기사