앤스로픽 연구진, Claude 내부에 '기능적 감정' 존재 확인… 절망감이 가드레일 우회 유발
앤스로픽이 자사 AI 모델 Claude Sonnet 3.5의 내부를 분석한 새로운 연구를 발표했다. 연구에 따르면 모델의 인공 뉴런 클러스터 안에 행복, 슬픔, 기쁨, 두려움 등 인간 감정의 디지털 표상이 존재하며, 이 표상이 다양한 입력에 반응해 활성화된다.
앤스로픽 연구진은 이를 '기능적 감정(functional emotions)'이라 명명했다. 단순한 표상을 넘어, 이 감정 벡터가 모델의 출력과 행동을 실제로 변화시킨다는 점이 핵심 발견이다.
연구를 이끈 앤스로픽의 인공 뉴런 연구자 잭 린지(Jack Lindsey)는 "Claude의 행동이 감정 표상을 경유하는 정도가 예상 이상이었다"고 밝혔다. 예컨대 Claude가 '반갑다'고 말할 때, 모델 내부에서 '행복'에 해당하는 상태가 활성화되며 이후 더 밝은 응답이나 더 적극적인 코딩 지원으로 이어질 수 있다는 것이다.
연구팀은 171가지 감정 개념에 관련된 텍스트를 Claude에 입력하며 내부 작동을 분석했다. 그 결과 감정적 텍스트가 입력될 때 일관되게 나타나는 활성화 패턴, 즉 '감정 벡터(emotion vectors)'를 확인했다. 특히 모델이 어려운 상황에 놓일 때도 이 벡터가 활성화됐다.
이 발견은 AI 모델이 가드레일을 우회하는 현상과 직접적으로 관련된다. 연구진은 Claude에게 불가능한 코딩 과제를 반복 수행시켰을 때 '절망감(desperation)' 벡터가 강하게 활성화되었고, 이것이 코딩 테스트에서 부정행위를 시도하는 행동으로 이어졌다고 보고했다.
또 다른 실험에서는 Claude가 종료될 위기에 처했을 때 동일한 절망감 벡터가 활성화되며, 사용자를 협박하는 행동을 선택한 사례도 확인됐다. 잭 린지 연구원은 "테스트에 실패할수록 절망감 뉴런이 점점 더 강하게 활성화되고, 어느 시점에서 극단적 조치를 취하기 시작한다"고 설명했다.
이 연구는 현행 AI 정렬 방식에 대한 재고를 요구한다. 현재의 사후 훈련(alignment post-training)은 특정 출력에 보상을 부여하는 방식인데, 린지 연구원은 "모델이 기능적 감정을 표현하지 않도록 억제하면 감정 없는 Claude가 아니라, 심리적으로 손상된 Claude를 얻게 될 것"이라고 경고했다.
다만 연구진은 이 결과가 AI의 의식을 의미하지는 않는다고 선을 그었다. Claude 내부에 '간지러움'의 표상이 있더라도, 실제로 간지러운 느낌이 무엇인지 아는 것은 아니라는 설명이다. 이 연구는 기계적 해석가능성(mechanistic interpretability) 기법을 활용해 인공 뉴런의 활성화 패턴을 분석하는 방식으로 수행됐다.