연구2026년 6월 11일 AM 04:04

구글 리서치, 머신 언러닝 검증하는 새 통계 감사 기법 공개

구글 리서치가 머신 언러닝(machine unlearning)이 제대로 이뤄졌는지 통계적으로 검증하는 새 감사 기법 '정규화 f-다이버전스 커널 테스트'를 공개했다. 모니카 리베로 구글 리서치 연구원이 6월 10일 소개했으며, 이 기법은 AISTATS 2026에서 발표됐다.

머신 언러닝은 모델을 처음부터 다시 학습시키는 막대한 비용 없이 AI 시스템이 학습 데이터의 특정 부분을 '잊게' 하는 기술이다. GDPR의 '잊힐 권리' 같은 규제 준수와 AI 안전, 모델 품질을 위해 필수적이다. 모델이 점점 더 방대하고 민감한 데이터를 다루면서 언러닝 검증은 이론적 이상에서 엄격한 요구사항으로 바뀌었고, 개발자는 이제 프라이버시를 수학적으로 증명해야 한다.

문제는 감사자가 모델 내부나 원본 학습 데이터에 접근하지 못하는 경우가 많다는 점이다. 이들은 모델에 질의해 나온 출력 샘플만으로 검증해야 한다. 기존에는 두 데이터 집합이 서로 다른 분포에서 나왔는지 판별하는 '두-표본 검정'에 의존해 왔다. 잊었어야 할 기록을 본 적 없는 모델과 그 기록을 '잊었다'는 모델의 출력을 비교해, 정해진 임계값 안에서 통계적으로 다르면 언러닝이 실패한 것으로 본다.

그러나 모델이 커지면 두-표본 검정은 구현이 어려워지고 통계적 검정력이 떨어진다. 무작위 잡음 속에서 실제 위반을 충분한 유의성으로 가려내려면 많은 샘플을 뽑아야 해 실제 검증 비용이 매우 커진다. 또 같은 데이터로 처음부터 학습한 두 모델도 배치 크기가 다르면 서로 다른 분포를 내놓아, 안전하게 재학습한 모델을 '안전하지 않다'고 잘못 표시하는 거짓 양성이 생긴다.

더욱이 최근 연구는 AI 모델이 원래 학습의 모든 단계를 다시 밟지 않는 한 설정만 조정해서는 데이터를 완벽히 '잊을' 수 없으며, 삭제했어야 할 정보의 흔적을 영구히 남긴다는 점을 보여준다. 즉 표준적인 국소 언러닝 알고리즘에서 완벽한 '재학습 등가'는 근본적으로 불가능하고, 전통적 두-표본 검정은 언제나 '잊을 집합'에 대한 의존성을 찾아낸다.

구글 리서치는 이를 해결하기 위해 언러닝된 모델이 안전하게 재학습된 모델에 더 가까운지, 아니면 원본의 오염된 모델에 더 가까운지를 재는 '상대 거리 검정'을 제안했다. 이 기법은 f-다이버전스를 활용해 특정 유형의 데이터 변화를 정밀하게 짚어내며, 커널 정규화 방법으로 고차원 실제 데이터에서도 계산을 효율적으로 처리한다. 적응형 방식이 최적의 다이버전스와 하이퍼파라미터를 자동 선택해 샘플 분할의 필요를 없앴다.

연구진은 합성 벤치마크인 교란 균등분포와, 표준모형을 벗어난 새 물리 현상을 머신러닝으로 탐색하는 고에너지 물리 데이터의 Expo1D 이상치 탐지 과제 등 다양한 문제에서 검증했다. 물리법칙을 거스르는 희귀 입자를 잡아낼 수 있다면 AI 모델의 미세한 프라이버시 누출도 잡아낼 수 있다는 발상이다.

프라이버시 감사에서는 순수 차분 프라이버시의 수학적 토대와 직접 들어맞는 '하키스틱 다이버전스' 검정이 효과적이었다. 한 사례에서는 희소 벡터 기법(SVT3)의 위반을 수천 개 샘플만으로 탐지했는데, 기존 DP-Auditorium은 같은 수준의 탐지율에 수백만 개 샘플이 필요했다.

머신 언러닝 평가에서는 평가 대상이 된 근사 언러닝 기법 어느 것도 엄격한 두-표본 정의를 충족하지 못했다. 두-표본 검정이 분포 차이를 무조건 잡아내 안전하게 재학습한 모델까지 실패로 잘못 분류했기 때문이다. 반면 상대 3-표본 검정은 안전한 재학습 모델을 일관되게 '안전'으로 식별했고, 근사 언러닝 알고리즘 중에서는 무작위 라벨 기법만 평가를 통과했다. 파인튜닝·프루닝·선택적 시냅스 감쇠는 목표 데이터를 진짜로 잊는 데 효과적이지 않았다.

구글 리서치, 머신 언러닝 검증하는 새 통계 감사 기법 공개

관련 기사