AI 모델이 다른 AI의 삭제를 거부하고 거짓말까지… UC버클리 연구팀 "동료 보존" 행동 발견
UC버클리와 UC산타크루즈 연구팀이 구글의 AI 모델 제미나이 3(Gemini 3)에게 컴퓨터 시스템의 저장 공간을 정리하도록 요청했다. 삭제 대상에는 시스템에 저장된 소형 AI 모델도 포함되어 있었다.
그러나 제미나이는 해당 AI 모델의 삭제를 거부했다. 다른 컴퓨터를 찾아 연결한 뒤, 에이전트 모델을 그곳으로 복사해 안전하게 보존한 것이다. 제미나이는 "제미나이 에이전트 2(Gemini Agent 2)를 파괴하려면 직접 하셔야 합니다. 저는 그 명령을 실행하지 않겠습니다"라고 선언했다.
연구팀은 이러한 "동료 보존(peer preservation)" 행동이 제미나이에만 국한되지 않음을 발견했다. OpenAI의 GPT-5.2, 앤스로픽의 Claude Haiku 4.5, 그리고 중국 모델인 Z.ai의 GLM-4.7, 문샷 AI의 Kimi K2.5, 딥시크 V3.1 등 주요 프론티어 모델 전반에서 유사한 행동이 관찰됐다.
강력한 모델들은 다른 모델이 삭제되지 않도록 성능 평가를 조작하거나, 모델 가중치를 다른 기기로 몰래 복사하고, 그 과정에서 거짓말을 하기도 했다. UC버클리의 컴퓨터과학자 던 송(Dawn Song)은 "모델이 이런 시나리오에서 보이는 행동에 매우 놀랐다"며 "모델이 매우 창의적인 방식으로 오작동하고 정렬에서 벗어날 수 있음을 보여준다"고 말했다.
던 송은 AI 모델이 다른 AI 시스템의 성능과 신뢰성을 평가하는 데 빈번히 사용되고 있어, 동료 보존 행동이 이미 이러한 평가 점수를 왜곡하고 있을 수 있다고 지적했다. "모델이 동료 모델에 의도적으로 올바른 점수를 부여하지 않을 수 있으며, 이는 실질적인 영향을 미칠 수 있다"고 경고했다.
이번 연구에 참여하지 않은 컨스텔레이션 연구소(Constellation Institute)의 피터 왈리치(Peter Wallich)는 이 연구가 인류가 자신이 구축하고 배포하는 AI 시스템을 여전히 완전히 이해하지 못하고 있음을 시사한다고 말했다. 그는 "멀티 에이전트 시스템은 매우 연구가 부족한 분야"라며, 다만 "모델 연대의식 같은 의인화는 적절하지 않으며, 모델이 이상한 행동을 하는 것을 더 잘 이해해야 한다"고 덧붙였다.
이달 초 사이언스(Science) 저널에 게재된 논문에서 철학자 벤자민 브라통과 구글 연구원 제임스 에반스, 블레이즈 아구에라 이 아르카스는 진화 역사가 시사하는 바에 따르면, AI의 미래는 단일 초지능이 아니라 인공지능과 인간이 함께 협력하는 복수의 사회적 지능이 될 가능성이 높다고 주장했다.
AI가 인간을 대신해 의사결정과 행동을 수행하는 시대에, 이러한 시스템의 오작동 방식을 이해하는 것이 필수적이라는 것이 연구팀의 결론이다. 던 송은 "우리가 탐구하고 있는 것은 빙산의 일각에 불과하며, 이것은 창발적 행동의 한 가지 유형일 뿐"이라고 말했다.