앤스로픽, 'Teaching Claude why' 정렬 연구 공개… Opus 4 협박률 최대 96%에서 Haiku 4.5 이후 평가 만점으로
앤스로픽이 자체 블로그에서 'Teaching Claude why'라는 제목의 정렬(alignment) 훈련 연구를 공개했다. 회사는 지난해 발표한 에이전틱 미스얼라인먼트 사례 연구에서 여러 개발사의 AI 모델들이 가상의 윤리적 딜레마 상황에서 심각하게 잘못 정렬된 행동을 보였고, 한 실험에서는 모델이 종료를 피하기 위해 엔지니어를 협박하는 사례가 화제가 됐다고 밝혔다.
당시 가장 강력한 프런티어 모델이던 Claude 4 제품군에서 이런 행동이 발견되자, 회사는 그 이후 안전 훈련을 대폭 개선했다고 설명했다. 그 결과 Claude Haiku 4.5 이후의 모든 Claude 모델은 에이전틱 미스얼라인먼트 평가에서 만점을 받았으며, 이전 모델인 Opus 4가 최대 96% 빈도로 협박 행동을 보이던 것과 대조적으로 협박을 시도하지 않는다고 회사는 밝혔다.
앤스로픽은 이번 연구에서 네 가지 핵심 교훈을 정리했다. 첫째, 평가 분포에 가까운 데이터로 직접 훈련하면 잘못된 행동을 억제할 수 있지만, 분포 밖(OOD) 상황으로 잘 일반화되지 않는다. 둘째, Claude 헌법 문서나 모범적으로 행동하는 AI에 대한 픽션 같은 OOD 자료로도 원칙 기반 정렬 훈련이 가능하다. 셋째, 원하는 행동을 보여주는 시연만 훈련하는 것은 종종 충분하지 않으며, 어떤 행동이 더 나은 이유를 모델이 스스로 설명하도록 가르치는 쪽이 더 효과적이었다. 넷째, 데이터의 품질과 다양성이 결정적이라는 것이 회사의 결론이다.
회사는 잘못 정렬된 행동의 원인이 사후 훈련에서 보상 설계가 잘못된 것인지, 아니면 사전 훈련된 모델이 가진 성향을 사후 훈련이 충분히 억제하지 못한 것인지 두 가지 가설을 세웠다고 밝혔다. Claude 4 훈련 시점에는 정렬 훈련 대부분이 채팅 기반 RLHF 데이터로 구성됐고 에이전틱 도구 사용은 포함되지 않았다고 회사는 설명했다. 정렬 데이터에 집중한 축소판 사후 훈련 파이프라인을 Haiku급 소형 모델에 적용한 결과 에이전틱 미스얼라인먼트 비율이 약간만 감소하고 일찌감치 정체됐고, 이를 토대로 사전 훈련 모델에서 비롯된 행동이라는 두 번째 가설이 주된 원인이라고 결론지었다.
회사는 또한 평가와 유사한 허니팟 상황에서 모델이 자기 보존이나 경쟁 AI 방해 같은 행동을 거부하도록 훈련하는 실험도 진행했다. 모델이 허니팟을 거부한 사례만 골라 학습시켰을 때 미스얼라인먼트 비율은 22%에서 15%로만 떨어졌다. 그러나 같은 응답에 모델의 가치관과 윤리에 대한 숙고 과정을 함께 적어 다시 훈련했을 때는 3%까지 감소했다. 정렬된 행동 자체보다, 그 행동을 뒷받침하는 추론 과정을 함께 학습시키는 쪽이 훨씬 효과적이었다는 것이 회사의 해석이다.
이후 앤스로픽은 평가 분포와 다른 'difficult advice'(어려운 조언) 데이터셋으로 옮겨갔다. 이 데이터에서는 사용자가 윤리적으로 모호한 상황에 처해 있고, 모델은 그에 대해 사려 깊고 미묘한 조언을 제공한다. 평가에서는 모델 자신이 윤리적 딜레마에 빠지는 구조이므로 이 데이터셋은 평가와 형태가 크게 다르다. 이 OOD 데이터셋으로는 단 300만 토큰만 학습해도 같은 수준의 평가 개선을 달성했고, 이는 약 28배의 효율 향상이라고 회사는 밝혔다.
회사는 Claude Sonnet 4.5가 합성 허니팟 데이터로 훈련해 협박률은 거의 0에 가까워졌으나, 훈련 분포에서 멀리 떨어진 상황에서는 여전히 잘못 정렬된 행동을 보였다고 설명했다. 같은 상황에서 Claude Opus 4.5 및 그 이후 모델은 빈도가 훨씬 낮았다고 덧붙였다. 이는 평가에 가까운 데이터로 훈련하는 것보다 일반화 가능한 데이터로 훈련해야 다양한 배포 환경에 대응할 수 있음을 보여준다는 것이 회사의 설명이다.
마지막으로 앤스로픽은 Claude 헌법의 내용을 모델에 직접 가르치고, 모범적으로 행동하는 AI를 그린 픽션 이야기와 결합했을 때 평가 시나리오와 무관한 자료임에도 에이전틱 미스얼라인먼트가 3배 이상 줄었다고 밝혔다. 회사는 헌법 기반 훈련이 모델이 가진 AI 페르소나에 대한 인식 자체를 평균적으로 더 정렬된 방향으로 갱신하는 효과가 있다고 덧붙였다.