연구2026년 4월 15일 AM 07:09

앤스로픽, AI가 스스로 정렬 연구하는 자동화된 정렬 연구원(AAR) 실험 공개… 인간 대비 4배 이상 성과

앤스로픽이 대형언어모델(LLM)을 활용해 AI 정렬(alignment) 연구를 자동화하는 실험 결과를 공개했다. 이번 연구는 AI 모델이 스스로 정렬 아이디어를 개발하고 실험할 수 있는지를 검증한 앤스로픽 펠로우스(Anthropic Fellows) 연구의 일환이다.

연구진은 약한 모델이 강한 모델을 감독하는 약한-강한 감독(weak-to-strong supervision) 문제에 초점을 맞췄다. 이는 미래에 인간보다 뛰어난 AI를 감독해야 하는 확장 가능한 감독(scalable oversight) 문제의 대리 과제로 설정됐다.

실험에서는 Claude Opus 4.6 모델 9개 복제본에 각각 샌드박스, 공유 포럼, 코드 저장소, 점수 서버 등의 도구를 제공하고 자동화된 정렬 연구원(Automated Alignment Researchers, AAR)으로 활용했다. 각 AAR에는 서로 다른 출발점이 주어졌으며, 이후 자율적으로 아이디어를 제안하고 실험을 수행했다.

기준선으로 두 명의 인간 연구자가 7일간 작업한 결과, 오픈소스 모델(Qwen 3-4B-Base를 강한 모델, Qwen 1.5-0.5B-Chat을 약한 교사로 사용)에서 성능 격차 회복률(PGR) 0.23을 기록했다. 반면 AAR은 추가 5일간(누적 800시간) 작업 후 PGR 0.97을 달성해, 거의 전체 성능 격차를 회복했다.

이 실험에는 약 18,000달러의 토큰 및 모델 훈련 비용이 소요됐으며, AAR 시간당 비용은 22달러였다. AAR의 최고 성능 방법을 수학과 코딩 등 새로운 데이터셋에 적용한 결과, 수학에서 PGR 0.94, 코딩에서 PGR 0.47(인간 기준선의 2배)을 기록해 일정 수준의 일반화 가능성을 보여줬다.

다만 한계도 확인됐다. AAR의 가장 효과적인 방법을 Claude Sonnet 4의 프로덕션 훈련 인프라에 적용했을 때는 통계적으로 유의미한 개선이 나타나지 않았다. 연구진은 AAR이 주어진 특정 모델과 데이터셋의 고유한 기회를 활용하는 경향이 있어, 다른 환경에서는 작동하지 않을 수 있다고 분석했다.

연구진은 AAR에 서로 다른 출발점을 제공하는 것이 큰 도움이 됐다고 밝혔다. 출발점 없이 실험했을 때 AAR들이 유사한 아이디어에 수렴했으며, 반대로 지나치게 구체적인 워크플로를 지정하면 오히려 성과가 저하됐다고 설명했다.

앤스로픽은 이번 결과가 프론티어 AI 모델이 범용 정렬 과학자가 됐다는 의미는 아니라고 강조했다. 이 문제는 단일 객관적 성공 지표가 있어 자동화에 특히 적합했으며, 대부분의 정렬 문제는 이처럼 깔끔하게 측정할 수 없다고 덧붙였다.

앤스로픽, AI가 스스로 정렬 연구하는 자동화된 정렬 연구원(AAR) 실험 공개… 인간 대비 4배 이상 성과

관련 기사