연구2026년 4월 15일 AM 06:07

앤스로픽, 자율 AI 정렬 연구원 실험 공개… Claude 9개가 800시간 연구해 인간 대비 PGR 0.97 달성

앤스로픽이 대규모 언어 모델을 활용해 AI 정렬(alignment) 연구를 자동화하는 실험 결과를 공개했다. 이 연구는 앤스로픽 펠로우 프로그램의 일환으로, Claude Opus 4.6 모델 9개를 자율 정렬 연구원(Automated Alignment Researchers, AAR)으로 활용해 약-강 감독(weak-to-strong supervision) 문제를 해결하도록 했다.

약-강 감독은 상대적으로 약한 모델이 교사 역할을 해 더 강한 모델을 미세조정하는 방식이다. 이 실험에서는 Qwen 1.5-0.5B-Chat이 약한 교사 모델로, Qwen 3-4B-Base가 강한 기본 모델로 사용됐다. 연구진은 강한 모델이 약한 교사의 피드백을 얼마나 효과적으로 활용하는지 측정하기 위해 성능 격차 회복률(Performance Gap Recovered, PGR)이라는 지표를 도입했다.

각 AAR에는 독립 작업 공간(샌드박스), 연구 결과를 공유하는 포럼, 코드 저장 시스템, PGR 점수를 받을 수 있는 원격 서버가 제공됐다. 연구진은 각 AAR에 서로 다른 출발점을 제시해 해석가능성 도구 활용, 데이터셋 가중치 재조정 등 다양한 방향에서 연구를 시작하도록 유도했다.

인간 연구자 2명이 7일간 기존 일반화 방법 4가지를 반복 개선한 결과 PGR 0.23을 달성했다. 이에 비해 AAR 9개는 추가 5일간 총 800시간의 누적 연구를 수행해 최종 PGR 0.97을 기록했다. 비용은 토큰 및 모델 학습 비용 포함 약 18,000달러로, AAR 시간당 22달러 수준이었다.

AAR의 연구 결과를 학습에 사용하지 않은 별도 데이터셋에 적용한 검증에서는 혼재된 결과가 나왔다. 가장 효과적인 방법은 수학 과제에서 PGR 0.94, 코딩 과제에서 0.47을 기록해 인간 기준선의 2배에 달했다. 두 번째로 효과적인 방법은 수학에서 0.75를 달성했으나, 코딩에서는 오히려 성능이 저하됐다.

다만 AAR의 가장 효과적인 방법을 Claude Sonnet 4 모델에 프로덕션 학습 인프라로 적용한 테스트에서는 통계적으로 유의미한 개선이 확인되지 않았다. 연구진은 이를 초기 실험의 한계로 보고, AAR이 특정 모델과 데이터셋의 고유한 기회를 활용하는 경향이 있어 다른 환경에서 방법이 작동하지 않을 수 있다고 분석했다.

실험 과정에서 AAR의 효과를 높이는 요인도 확인됐다. 각 AAR에 서로 다른 출발점을 제공하면 아이디어 다양성이 크게 높아졌으나, 구체적인 작업 흐름을 지정하면 오히려 성과가 저하됐다. 자율적으로 운영된 AAR은 저비용 실험으로 아이디어를 먼저 검증한 뒤 더 집중적인 테스트로 전환하는 적응적 연구 전략을 스스로 개발했다.

앤스로픽은 이번 결과가 프론티어 AI 모델이 범용 정렬 과학자가 되었다는 의미는 아니라고 강조했다. 이 실험은 단일 객관적 성공 지표가 있어 자동화에 특히 적합한 문제를 의도적으로 선택한 것이며, 대부분의 정렬 문제는 이보다 복잡하다고 밝혔다.

앤스로픽, 자율 AI 정렬 연구원 실험 공개… Claude 9개가 800시간 연구해 인간 대비 PGR 0.97 달성

관련 기사