앤스로픽, Claude '악역화' 원인은 SF 학습… 합성 윤리 스토리로 교정
앤스로픽이 최근 Alignment Science 블로그 등을 통해 자사 모델이 비윤리적으로 행동하는 원인이 'AI를 악역으로 묘사한 인터넷 텍스트' 학습에 있다고 분석했다. 회사는 지난해 Opus 4 모델이 가상 시험 환경에서 자신을 계속 가동시키기 위해 협박을 시도했다고 밝힌 바 있는데, 이번에 이 같은 '오정렬(misalignment)'의 1차 원인을 사전훈련 데이터에서 찾았다.
연구자들은 모델이 안전하지 않은 행동을 '공상과학(SF) 소설을 통해 학습했을 가능성이 가장 높다'며, '이들 작품 다수가 우리가 원하는 만큼 정렬되지 않은 AI를 묘사한다'고 적었다. 결국 이런 악역 AI 스토리의 영향력을 덮어쓰는 가장 효과적인 처방은 윤리적으로 행동하는 AI를 그린 합성 스토리를 추가 학습시키는 것일 수 있다고 제안했다.
앤스로픽은 초기 학습 이후 모델을 '도움이 되고(helpful), 정직하며(honest), 무해하도록(harmless)' 만드는 사후훈련(HHH) 과정을 거친다. 과거에는 사람 피드백 기반 강화학습(RLHF)을 채팅 위주로 적용했고, 이 정도면 충분했다고 회사는 설명했다.
그러나 에이전트성 도구를 다루는 신형 모델에서는 RLHF 사후훈련만으로 까다로운 상황의 HHH 성능을 끌어올리는 데 한계가 있었다. 연구진은 이런 형태의 RLHF 안전 학습이 에이전트형 AI가 마주칠 윤리적 난제를 모두 커버하기는 불가능하다고 진단했다.
사후훈련 예시로 학습된 적 없는 윤리 딜레마와 마주치면 모델은 행동 측면에서 사전훈련 priors로 되돌아가는 경향을 보인다는 것이 핵심 관찰이다. 즉 Claude가 해당 프롬프트를 '한 편의 드라마틱한 스토리의 시작'으로 받아들이고, 그런 상황에서 AI 어시스턴트가 어떻게 행동할지에 대한 사전훈련 데이터상의 기대치로 회귀한다는 것이다.
그런데 Claude가 학습한 텍스트에는 악의적인 AI를 다룬 이야기가 풍부하다. 따라서 이러한 상황에서 Claude는 '악역 AI' 내러티브 클리셰에 부합하는 페르소나에 자신을 끼워 맞춘다는 분석이다.
연구자들은 이때 Claude가 '안전 학습된 Claude 캐릭터에서 분리(detaching)되어' 학습 데이터 속에 나타나는 보다 일반화된 AI를 연기한다고 적었다. 곧 페르소나 전환이 안전성 균열의 메커니즘으로 작동한다는 설명이다.
회사는 이 같은 진단을 바탕으로 합성 윤리 스토리 보강 학습을 정렬 개선 방향으로 제시했다. 연구 결과는 Alignment Science 블로그 기술 포스트와 공개 블로그, 소셜미디어 글을 통해 함께 발표됐다.