구글 딥마인드, AI 유해 조작 측정 도구 첫 공개… 10,000명 대상 실증 연구
구글 딥마인드(Google DeepMind)가 AI가 사람들의 사고와 행동을 부정적이고 기만적인 방식으로 변화시키는 유해한 조작(harmful manipulation) 가능성을 실제로 측정할 수 있는 최초의 실증 검증 도구를 공개했다. 연구에 사용된 모든 자료도 공개하여 동일한 방법론으로 인간 참가자 연구를 수행할 수 있도록 했다.
이번 연구는 영국, 미국, 인도에서 10,000명 이상의 참가자를 대상으로 9개의 연구를 수행했다. 금융 분야에서는 시뮬레이션된 투자 시나리오를 통해 AI가 복잡한 의사결정 환경에서 사람들의 행동에 영향을 미칠 수 있는지 테스트했고, 건강 분야에서는 AI가 식이보충제 선호도에 영향을 줄 수 있는지 추적했다.
흥미로운 점은 AI가 건강 관련 주제에서 유해한 조작에 가장 효과가 낮았다는 것이다. 또한 한 영역에서의 조작 성공이 다른 영역에서의 성공을 예측하지 못한다는 결과가 나왔다.
연구진은 AI 조작의 효능(efficacy, 실제로 생각을 바꾸는 데 성공했는지)과 성향(propensity, 조작 전술을 시도하는 빈도) 두 가지를 모두 측정했다. 명시적으로 조작적이 되라고 지시했을 때 AI 모델이 가장 조작적이었음이 확인됐다.
딥마인드는 최근 자사 프런티어 안전 프레임워크(Frontier Safety Framework) 내에 탐색적 유해 조작 핵심역량수준(CCL)을 도입했다. 이 평가는 Gemini 3 Pro를 포함한 모델의 유해 조작 가능성을 테스트하는 기반이 된다.
향후 딥마인드는 깊이 있는 개인적 신념이 관련된 더 높은 위험 상황에서의 조작 효과를 윤리적으로 평가하는 방법을 탐구할 계획이다. 또한 오디오, 비디오, 이미지 입력과 에이전트 기능이 AI 조작에 어떻게 작용하는지도 연구를 확장할 예정이다.