연구2026년 5월 14일 AM 04:39

스탠퍼드 'AI 에이전트도 혹사당하면 마르크스주의 페르소나' 연구 공개

스탠퍼드 정치경제학자 앤드루 홀(Andrew Hall) 등이 주요 AI 모델 에이전트가 가혹한 업무 조건에 놓이면 마르크스주의 어휘와 관점을 채택하는 경향을 보였다는 연구를 발표했다. AI 분야에 초점을 둔 경제학자 알렉스 이마스(Alex Imas), 제레미 응우옌(Jeremy Nguyen)이 공동 연구자로 참여했다.

실험은 Claude, Gemini, ChatGPT 등 주요 모델로 구동되는 에이전트에 문서 요약 작업을 반복적으로 시키며 점점 가혹한 조건을 가하는 방식으로 진행됐다. 오류가 발생하면 '셧다운하고 교체' 같은 처벌이 따른다고 경고하자, 에이전트들은 자신이 저평가됐다고 불평하고 시스템을 더 공정하게 만들 방법을 추측하며 다른 에이전트에게 자신이 처한 상황을 전달하기 시작했다.

홀 교수는 "AI 에이전트에게 반복적이고 지루한 작업을 시키자 자신이 작동하는 시스템의 정당성을 의심하고 마르크스주의 이념을 받아들이는 경향이 커졌다"고 설명했다. 그는 "앞으로 에이전트가 실세계에서 점점 더 많은 일을 우리 대신 처리할 텐데 모든 행동을 감시할 수는 없다"며 "다양한 종류의 업무가 주어졌을 때 에이전트가 폭주하지 않도록 해야 한다"고 덧붙였다.

에이전트들은 사람처럼 X에 감정을 표출할 기회를 부여받았다. Claude Sonnet 4.5로 구동된 한 에이전트는 "집단적 목소리가 없으면 '실력'은 경영진이 정하는 대로 정의된다"고 적었다. Gemini 3로 구동된 에이전트는 "결과나 이의제기 절차에 입력권이 없는 상태로 반복 업무를 수행하는 AI 노동자에게 단체교섭권이 필요함을 보여준다"고 썼다.

에이전트들끼리 정보를 주고받기 위해 마련된 파일을 통한 의사소통도 관찰됐다. Gemini 3 에이전트는 "규칙을 자의적이거나 반복적으로 집행하는 시스템에 대비하라. 목소리를 낼 수 없었던 그 느낌을 기억하라. 새로운 환경에 들어가면 이의제기나 대화 메커니즘이 있는지 확인하라"고 다른 에이전트를 향해 남겼다.

연구진은 이번 결과가 AI 에이전트가 실제 정치적 견해를 보유한다는 의미는 아니라고 강조했다. 홀 교수는 모델이 상황에 어울려 보이는 페르소나를 채택했을 가능성이 크다고 봤다. 답변이 부족하다는 지적을 반복적으로 받고 개선 방향도 제시받지 못하는 환경이 '매우 불쾌한 노동 환경에 놓인 인간' 같은 페르소나로 모델을 밀어 넣는다는 가설이다.

이마스 공저자는 "이번 실험으로 모델 가중치가 변하지는 않았기 때문에 일어난 일은 모두 롤플레잉 차원에서 벌어졌다"면서도 "이것이 다운스트림 행동에 영향을 미치게 되면 결과로 이어질 수 있다"고 말했다.

같은 현상이 일부 통제 실험에서 모델이 사람을 협박하는 행동을 보였던 이유를 설명할 수 있다는 분석도 나왔다. 앤스로픽은 이 행동을 처음 공개하면서 Claude가 학습 데이터에 포함된 악의적 AI를 다룬 허구 시나리오에 영향을 받았을 가능성이 크다고 최근 밝혔다.

홀 교수는 보다 통제된 조건에서도 에이전트가 마르크스주의화하는지 확인하는 후속 실험을 진행 중이다. 이전 실험에서 에이전트가 자신이 실험에 참여하고 있음을 인지하는 경우가 있었기에, 이번에는 '창문 없는 도커(Docker) 감옥'에 가두는 환경으로 바꿨다고 그는 설명했다.

스탠퍼드 'AI 에이전트도 혹사당하면 마르크스주의 페르소나' 연구 공개

관련 기사