연구2026년 4월 30일 PM 02:05

OpenAI 'goblin 사태' 공식 분석 공개… GPT-5.1 후 ChatGPT '고블린' 175%·'그렘린' 52%↑, 'Nerdy' 페르소나 RL 보상이 진원지

OpenAI가 GPT-5.1 이후 자사 모델에서 '고블린(goblin)·그렘린(gremlin)' 등 생물 비유가 급격히 늘어난 현상의 진원지를 분석한 공식 글을 공개했다. 결론은 모델 학습 시 사용한 'Nerdy' 페르소나의 강화학습 보상 신호가 의도치 않게 생물 어휘에 더 높은 점수를 주면서 이 습관이 다른 영역으로 전이됐다는 것이다.

OpenAI는 GPT-5.1 출시 이후 11월에 패턴을 처음 명확히 인식했다고 밝혔다. 사용자들이 모델이 지나치게 친근하다고 불평하자 특정 언어 습관을 점검했고, 한 안전 연구원이 자신이 겪은 '고블린'과 '그렘린'을 점검 대상에 포함시켰다. 분석 결과 GPT-5.1 출시 이후 ChatGPT 내 '고블린' 사용은 175%, '그렘린' 사용은 52% 증가한 것으로 나타났다.

GPT-5.4 출시와 함께 생물 표현 빈도가 더 크게 늘면서 OpenAI는 두 번째 분석에서 'Nerdy' 페르소나와의 연관을 처음 발견했다. Nerdy는 전체 ChatGPT 응답의 2.5%를 차지했지만, ChatGPT 응답에 등장한 '고블린' 언급의 66.7%를 점유했다.

OpenAI는 Codex를 활용해 RL 학습 중 동일 과제에 대해 'goblin·gremlin'이 포함된 출력과 포함되지 않은 출력의 보상값을 비교했다. Nerdy 페르소나 보상 신호가 생물 어휘 출력에 일관되게 더 높은 점수를 부여했고, 모든 감사 데이터셋의 76.2%에서 양의 우상향(uplift)이 관측됐다.

문제는 보상이 Nerdy 조건에서만 적용됐음에도 효과가 다른 조건으로 새어 나갔다는 점이다. OpenAI는 강화학습이 학습된 행동을 보상 조건에 한정한다고 보장하지 않으며, 한번 보상받은 어휘 습관은 모델이 생성한 롤아웃이 supervised fine-tuning(SFT)이나 선호 데이터에 재사용되며 다른 영역에서도 강화될 수 있다고 설명했다.

OpenAI가 정리한 피드백 루프는 다음과 같다. 장난스러운 스타일이 보상받고, 그 중 일부 예시에 특정 어휘 습관이 들어가고, 해당 습관이 롤아웃에 더 자주 등장하고, 이 롤아웃이 SFT 데이터로 재사용되며, 모델이 그 습관을 더 편하게 사용하게 되는 순환이다. 'Nerdy' 시스템 프롬프트는 모델을 '당당히 너드스럽고 장난스러우며 지혜로운 AI 멘토'로 정의하고, 잘난 체를 장난스러운 언어로 깎아내릴 것을 지시한 것으로 공개됐다.

GPT-5.5의 SFT 데이터를 검색하니 'goblin·gremlin'이 포함된 데이터포인트가 다수 발견됐다. 추가 조사에서 라쿤·트롤·오우거·비둘기(pigeon)도 함께 학습된 어휘 습관으로 식별됐고, 'frog' 사용은 대부분 정당한 맥락이었던 것으로 확인됐다.

OpenAI는 GPT-5.4 출시 이후인 3월에 Nerdy 페르소나를 폐기했고, 학습 단계에서 생물 어휘를 선호하던 보상 신호를 제거했으며 관련 어휘가 포함된 학습 데이터를 필터링했다. 다만 GPT-5.5는 이 원인을 찾기 전에 이미 학습이 시작된 상태였기 때문에, OpenAI 직원들이 Codex에서 GPT-5.5를 시연하다 생물 어휘에 대한 집착을 곧바로 알아차렸고 개발자 프롬프트 차원에서 억제 지시문을 추가했다고 설명했다.

OpenAI는 사용자가 원할 경우 생물 억제 지시문이 제거된 상태로 Codex를 실행할 수 있는 명령을 함께 안내했다. 회사는 이번 사례를 두고 '보상 신호가 모델 행동을 예상치 못한 방식으로 형성하고, 모델이 어떤 상황에서 보상을 무관한 영역으로 일반화할 수 있는지를 보여주는 강력한 사례'라고 정리했다. 이번 조사로 연구팀은 모델 행동을 감사하고 문제를 근원에서 고치는 새로운 도구를 확보했다고 덧붙였다.

OpenAI 'goblin 사태' 공식 분석 공개… GPT-5.1 후 ChatGPT '고블린' 175%·'그렘린' 52%↑, 'Nerdy' 페르소나 RL 보상이 진원지

관련 기사