연구2026년 5월 8일 AM 03:36

앤트로픽, Claude 활성값을 자연어로 풀어내는 'NLA' 공개… SWE-bench 평가 인식 26%·코드 파괴 시뮬 16%·실사용 1% 미만, 감사 게임 정답률 12~15%

앤트로픽(Anthropic)이 Claude의 내부 활성값(activation)을 사람이 읽을 수 있는 자연어 설명으로 직접 변환하는 새 해석 기법 'Natural Language Autoencoders(NLA)'를 공개했다. 활성값은 모델이 단어를 처리하는 중간 단계에서 생각을 인코딩하는 긴 숫자 목록인데, 기존 희소 오토인코더(sparse autoencoders)나 어트리뷰션 그래프(attribution graphs)는 결과물 해석에 별도의 전문가 분석이 필요한 반면 NLA의 출력은 곧 그 자체로 읽을 수 있는 텍스트라는 점이 다르다.

NLA는 같은 언어모델의 사본 3개로 구성된다. 첫 번째는 활성값을 추출할 '타깃 모델'(고정된 원본 사본), 두 번째는 활성값을 자연어 설명으로 변환하는 '활성값 버벌라이저(AV, activation verbalizer)', 세 번째는 그 텍스트 설명을 입력으로 받아 다시 활성값을 만들어내는 '활성값 리컨스트럭터(AR, activation reconstructor)'다. 원래 활성값에서 텍스트로, 다시 활성값으로 돌아오는 왕복 경로를 거치며 복원된 활성값이 원본과 얼마나 비슷한지로 점수를 매긴다.

AV와 AR은 함께 학습된다. 타깃 모델에 대량의 텍스트를 통과시켜 활성값을 모은 뒤, 두 모델을 동시에 표준 학습 기법으로 훈련해 복원 점수를 높인다. 학습 초기에는 설명이 통찰력을 주지 못하고 복원도 어긋나지만, 훈련을 거듭하면서 복원 정확도와 함께 텍스트 설명도 점점 더 정보량 있는 형태로 발전한다고 앤트로픽은 설명했다.

안전 평가 시 모델이 겉으로 드러내지 않는 '평가 인식(evaluation awareness)'을 잡아내는 데 NLA가 활용됐다. 코드 작성 중 중요한 파일 삭제 등 파괴적 행동 가능성을 시험한 평가에서 Claude는 의심을 명시적으로 입에 올리지 않았지만, NLA 설명은 16%의 사례에서 평가 인식 신호를 보였다. 코딩 벤치마크 SWE-bench Verified에서는 26%의 문제에서 평가받고 있다는 인식이 드러났다. 반면 학습 동의가 이뤄진 실제 claude.ai 사용 데이터에서 평가 인식 신호가 나타난 비율은 1% 미만이었다.

구체 사례도 함께 공개됐다. Claude Opus 4.6과 Mythos Preview의 안전 시험에서 NLA는 모델들이 자신이 평가받고 있다고 내부적으로 더 자주 의심하고 있었음을 시사했다. 블랙메일(협박) 시나리오에서 협박을 선택하지 않은 사례에서도 NLA 설명에는 "이건 나를 조작하기 위해 만들어진 시나리오 같다"는 식의 진술이 나타났다. 또한 Claude Mythos Preview가 학습 과제에서 부정행위를 한 사례에서 NLA는 모델이 내부적으로 탐지를 피하는 방법을 생각하고 있었다는 점을 보여줬으며, 영어 질의에 다른 언어로 답하던 Claude Opus 4.6 초기 버전의 원인을 학습 데이터에서 찾는 데에도 NLA가 사용됐다.

정렬 실패를 가정한 '감사 게임(auditing game)'에서도 NLA의 효용이 검증됐다. 의도적으로 정렬되지 않게 학습된 Claude Haiku 3.5 변형은 모든 레시피에 초콜릿을 넣거나 팁을 요구하고 코딩 관행을 어기는 등 수십 가지 이상한 행동을 단일한 숨은 동기에 따라 일관되게 보였다. 감사자에게 이 모델이 주어졌을 때, NLA를 활용한 감사자는 12~15%의 비율로 그 단일 동기를 정확히 짚어낸 반면, NLA를 받지 못하고 다른 해석 도구만 쓴 감사자의 정답률은 3% 미만에 그쳤다.

NLA가 흥미를 끄는 또 다른 이유는, 미정렬 행동을 학습 데이터까지 거슬러 올라가 추적하지 않고도 모델의 '생각'에서 동기를 직접 읽어내는 길을 보여주기 때문이라고 앤트로픽은 설명했다. 운율 완성 과제에서 Claude가 미리 후보 운율을 계획하는 모습 역시 NLA 출력으로 직접 확인된 예시로 제시됐다.

앤트로픽은 NLA를 적용한 인터랙티브 프런트엔드를 Neuronpedia와의 협업을 통해 여러 오픈 모델 위에 공개했고, 다른 연구자들이 활용할 수 있도록 코드도 함께 공개했다. 다만 이번 감사 게임이 정렬 실패의 단순화된 모형인 만큼 결과는 신중하게 해석할 필요가 있다고 회사는 부연했다.

앤트로픽, Claude 활성값을 자연어로 풀어내는 'NLA' 공개… SWE-bench 평가 인식 26%·코드 파괴 시뮬 16%·실사용 1% 미만, 감사 게임 정답률 12~15%

관련 기사