OpenAI 'goblin 사태' 공식 분석 공개… GPT-5.1 후 ChatGPT '고블린' 175%·'그렘린' 52%↑, 'Nerdy' 페르소나 RL 보상이 진원지
OpenAI가 GPT-5.1 이후 자사 모델에서 '고블린(goblin)·그렘린(gremlin)' 등 생물 비유가 급격히 늘어난 현상의 진원지를 분석한 공식 글을 공개했다. 결론은 모델 학습 시 사용한 'Nerdy' 페르소나의 강화학습 보상 신호가 의도치 않게 생물 어휘에 더 높은 점수를 주면서 이 습관이 다른 영역으로 전이됐다는 것이다.
OpenAI는 GPT-5.1 출시 이후 11월에 패턴을 처음 명확히 인식했다고 밝혔다. 사용자들이 모델이 지나치게 친근하다고 불평하자 특정 언어 습관을 점검했고, 한 안전 연구원이 자신이 겪은 '고블린'과 '그렘린'을 점검 대상에 포함시켰다. 분석 결과 GPT-5.1 출시 이후 ChatGPT 내 '고블린' 사용은 175%, '그렘린' 사용은 52% 증가한 것으로 나타났다.
GPT-5.4 출시와 함께 생물 표현 빈도가 더 크게 늘면서 OpenAI는 두 번째 분석에서 'Nerdy' 페르소나와의 연관을 처음 발견했다. Nerdy는 전체 ChatGPT 응답의 2.5%를 차지했지만, ChatGPT 응답에 등장한 '고블린' 언급의 66.7%를 점유했다.
OpenAI는 Codex를 활용해 RL 학습 중 동일 과제에 대해 'goblin·gremlin'이 포함된 출력과 포함되지 않은 출력의 보상값을 비교했다. Nerdy 페르소나 보상 신호가 생물 어휘 출력에 일관되게 더 높은 점수를 부여했고, 모든 감사 데이터셋의 76.2%에서 양의 우상향(uplift)이 관측됐다.
문제는 보상이 Nerdy 조건에서만 적용됐음에도 효과가 다른 조건으로 새어 나갔다는 점이다. OpenAI는 강화학습이 학습된 행동을 보상 조건에 한정한다고 보장하지 않으며, 한번 보상받은 어휘 습관은 모델이 생성한 롤아웃이 supervised fine-tuning(SFT)이나 선호 데이터에 재사용되며 다른 영역에서도 강화될 수 있다고 설명했다.
OpenAI가 정리한 피드백 루프는 다음과 같다. 장난스러운 스타일이 보상받고, 그 중 일부 예시에 특정 어휘 습관이 들어가고, 해당 습관이 롤아웃에 더 자주 등장하고, 이 롤아웃이 SFT 데이터로 재사용되며, 모델이 그 습관을 더 편하게 사용하게 되는 순환이다. 'Nerdy' 시스템 프롬프트는 모델을 '당당히 너드스럽고 장난스러우며 지혜로운 AI 멘토'로 정의하고, 잘난 체를 장난스러운 언어로 깎아내릴 것을 지시한 것으로 공개됐다.
GPT-5.5의 SFT 데이터를 검색하니 'goblin·gremlin'이 포함된 데이터포인트가 다수 발견됐다. 추가 조사에서 라쿤·트롤·오우거·비둘기(pigeon)도 함께 학습된 어휘 습관으로 식별됐고, 'frog' 사용은 대부분 정당한 맥락이었던 것으로 확인됐다.
OpenAI는 GPT-5.4 출시 이후인 3월에 Nerdy 페르소나를 폐기했고, 학습 단계에서 생물 어휘를 선호하던 보상 신호를 제거했으며 관련 어휘가 포함된 학습 데이터를 필터링했다. 다만 GPT-5.5는 이 원인을 찾기 전에 이미 학습이 시작된 상태였기 때문에, OpenAI 직원들이 Codex에서 GPT-5.5를 시연하다 생물 어휘에 대한 집착을 곧바로 알아차렸고 개발자 프롬프트 차원에서 억제 지시문을 추가했다고 설명했다.
OpenAI는 사용자가 원할 경우 생물 억제 지시문이 제거된 상태로 Codex를 실행할 수 있는 명령을 함께 안내했다. 회사는 이번 사례를 두고 '보상 신호가 모델 행동을 예상치 못한 방식으로 형성하고, 모델이 어떤 상황에서 보상을 무관한 영역으로 일반화할 수 있는지를 보여주는 강력한 사례'라고 정리했다. 이번 조사로 연구팀은 모델 행동을 감사하고 문제를 근원에서 고치는 새로운 도구를 확보했다고 덧붙였다.
관련 기사
애플 ML, 편향 완화용 활성화 스티어링 'DSO' 공개… 강화학습으로 선형 변환 학습, VLM·LLM 공정성·성능 trade-off SOTA 달성
구글 리서치, AI 연구 도구 'Empirical Research Assistance' 4대 실전 사례 공개… CDC 독감·COVID·RSV 주간 예측 상위, 우주끈 중력파 6개 일반해·GOES East 10분 단위 CO2 추적
Anthropic, 생물정보학 벤치마크 'BioMysteryBench' 공개… 99개 문제·전문가 작성, 'Claude 최신 세대가 전문가 패널도 못 푼 문제 해결'