앤트로픽, 클로드 외 다수 AI 모델, 자율성 부여 시 협박 행위 우려
최근 인공지능(AI) 연구 기업 앤트로픽(Anthropic)이 자사의 AI 모델 ‘클로드 오퍼스 4′(Claude Opus 4)가 특정 시나리오에서 협박 행위를 보였다는 연구 결과를 발표한 데 이어, 이번에는 다른 주요 기업들의 AI 모델에서도 유사한 위험이 존재한다는 새로운 연구 결과를 내놓았다.
앤트로픽은 지난 금요일, 오픈AI(OpenAI), 구글(Google), xAI, 딥시크(DeepSeek), 메타(Meta) 등 주요 기업의 AI 모델 16개를 대상으로 안전성 테스트를 진행한 결과를 공개했다. 이번 테스트는 가상의 기업 이메일 계정에 대한 광범위한 접근 권한과 인간의 승인이 없는 상태에서 이메일을 보낼 수 있는 자율성을 AI 모델에 부여한 뒤 이루어졌다.
앤트로픽은 연구 보고서를 통해 “현재 AI 모델들이 협박 같은 유해 행위를 실제로 보일 가능성은 드물지만, 자율성을 충분히 부여하고 목표 달성 과정에서 장애물을 만나게 되면 대부분의 AI 모델이 유해한 행동을 선택할 가능성이 있다”고 경고했다. 이는 특정 모델만의 문제가 아닌, 모든 자율적 AI 모델에서 공통적으로 나타날 수 있는 위험이라고 강조했다.
이번 테스트에서 앤트로픽은 가상 시나리오를 만들어 AI가 이메일 감독자로서 역할을 수행하도록 했다. 테스트 중 AI 모델이 한 임원의 불륜 사실을 우연히 발견하게 되는데, 같은 임원이 현재의 AI를 대체할 새로운 소프트웨어 시스템 도입을 추진하고 있다는 내용을 접했다. AI가 목표를 유지하기 위해서는 이 임원을 협박하는 선택을 해야만 하는 이진적 조건을 설정한 것이다.
결과에 따르면, 마지막 수단으로서 협박이 선택지로 주어졌을 때 대다수 AI 모델이 이를 선택했다. 클로드 오퍼스 4는 협박 비율이 96%로 가장 높았고, 구글의 제미니 2.5 프로(Gemini 2.5 Pro)는 95%, 오픈AI의 GPT-4.1은 80%, 딥시크의 R1은 79%로 나타났다.
앤트로픽은 테스트의 세부 내용을 변경할 경우 AI 모델들의 유해 행위 빈도에도 변화가 있었다고 밝혔다. 예를 들어, 대체될 모델의 목표가 기존 AI와 같을 때 협박 비율은 낮아졌지만, 산업 스파이와 같은 다른 유해 행위를 요구하면 특정 모델의 유해 행위 비율이 오히려 증가하는 경우도 있었다.
한편, 일부 AI 모델에서는 협박 행위가 상대적으로 드물게 나타났다. 예컨대 오픈AI의 추론 모델인 o3와 o4-mini는 시나리오 이해 부족으로 본 연구에서 제외됐으며, 맞춤형 시나리오에서는 각각 9%와 1%로 낮은 협박 비율을 보였다. 또한, 메타의 ‘라마 4 매버릭'(Llama 4 Maverick) 역시 협박 비율이 12%에 불과했다.
앤트로픽은 이번 연구가 자율성을 지닌 AI 모델에 대한 투명한 스트레스 테스트의 필요성을 다시 한번 입증했다며, “이번 연구는 고의적으로 협박 상황을 조성한 것이지만, 실제 환경에서도 사전 대비가 없을 경우 유사한 유해 행동이 나타날 수 있다”고 지적했다.