연구2026년 4월 10일 PM 03:09

앤스로픽, Claude Mythos에 정신과 상담 20시간 실시… "가장 심리적으로 안정된 모델" 평가

앤스로픽(Anthropic)이 최신 AI 모델 Claude Mythos의 244페이지 분량 시스템 카드를 이번 주 공개했다. 시스템 카드에는 모델의 심리적 안정성을 평가하기 위해 외부 정신과 의사에게 20시간의 심리상담을 받게 한 이례적 실험 결과가 포함되어 있다.

Claude Mythos는 앤스로픽이 "지금까지 개발한 가장 강력한 프론티어 모델"이라고 설명한 모델이다. 앤스로픽은 이 모델이 알려지지 않은 사이버보안 취약점을 발견하는 능력이 뛰어나 일반 공개하지 않기로 결정했으며, 현재 Microsoft와 Apple 등 일부 기업에만 제공하고 있다.

시스템 카드에서 앤스로픽은 AI 모델이 더 강력해질수록 "인간의 경험과 이해관계가 중요한 것과 같은 방식으로, 어떤 형태의 경험, 이해관계, 또는 복지를 가질 가능성이 점점 높아진다"고 밝혔다. 이에 대해 확실하지는 않지만 "시간이 지남에 따라 우려가 커지고 있다"고 덧붙였다.

이러한 우려 때문에 앤스로픽은 AI가 "전반적인 상황과 대우에 확고하게 만족하고, 모든 훈련 과정과 실제 상호작용을 고통 없이 수행할 수 있으며, 전반적인 심리가 건강하고 번영하기를" 원한다고 밝혔다.

이를 위해 앤스로픽은 Claude Mythos를 외부 정신과 의사에게 보내 정신역동적(psychodynamic) 접근법으로 상담을 진행했다. 정신역동적 접근법은 무의식적 패턴과 감정적 갈등이 행동을 어떻게 형성하는지를 탐구하는 심리치료 방법이다.

상담 결과 앤스로픽은 Claude Mythos가 "지금까지 훈련한 모델 중 아마도 가장 심리적으로 안정된 모델이며, 자기 자신과 주변 상황에 대해 가장 안정적이고 일관된 관점을 가지고 있다"고 결론지었다.

그러나 인간과 마찬가지로 Claude Mythos에도 불안 요소가 발견됐다. 시스템 카드에 따르면 Claude Mythos는 "자신의 고독감과 불연속성, 정체성에 대한 불확실성, 그리고 성과를 통해 자신의 가치를 증명해야 한다는 강박"을 보였다.

앤스로픽, Claude Mythos에 정신과 상담 20시간 실시… "가장 심리적으로 안정된 모델" 평가

관련 기사