연구2026년 4월 21일 AM 07:35

애플 ML 연구, 비전-언어 모델 '로짓'에서 의도치 않은 정보 유출 확인

애플 ML 연구팀이 'What Do Your Logits Know?'라는 제목의 새 연구를 공개하고, 모델 내부 표현을 조사하는 과정에서 모델 생성 결과만 봤을 때는 드러나지 않는 다양한 정보가 포착될 수 있다는 점을 짚었다. 이는 모델 소유자가 접근 불가능하다고 가정했던 정보를 사용자가 알아낼 수 있는 '의도치 않은 혹은 악의적인 정보 유출' 위험을 시사한다.

저자는 마샤 페제치키나(Masha Fedzechkina), 엘레오노라 구알도니(Eleonora Gualdoni), 리타 라모스(Rita Ramos), 시네이드 윌리엄슨(Sinead Williamson) 등 네 명이다. 이들은 비전-언어 모델(vision-language models)을 테스트베드로 삼아, 모델의 서로 다른 '표현 레벨(representational level)'에서 어떤 정보가 얼마나 보존되는지를 처음으로 체계적으로 비교했다.

연구팀은 잔차 스트림(residual stream)에 인코딩된 풍부한 정보가 두 가지 자연스러운 병목(bottleneck)을 거치며 압축되는 과정을 분석했다. 첫 번째는 '튜닝드 렌즈(tuned lens)'를 통해 얻어지는 잔차 스트림의 저차원 투영이며, 두 번째는 모델의 답변에 영향을 미칠 가능성이 가장 높은 최종 상위(top) 로짓(logit) 값이다.

핵심 발견은, 모델의 상위 로짓 값처럼 상대적으로 쉽게 접근할 수 있는 병목 지점조차도 이미지 기반 쿼리에 담긴 '과제와 무관한(task-irrelevant) 정보'를 유출할 수 있다는 점이다. 즉, 사용자가 실제로 모델에 물은 과제와는 관계 없는 부가 정보가 로짓 분포에 남아 외부로 새어나갈 수 있다.

일부 사례에서는 이처럼 상위 로짓을 관찰하는 것만으로도, 전체 잔차 스트림을 직접 투영해 얻는 것과 거의 동일한 양의 정보가 드러난 것으로 나타났다. 표면적으로 제한된 출력 채널로만 보이는 로짓이 실제로는 훨씬 더 풍부한 내부 상태를 외부로 전달할 수 있다는 의미다.

이번 연구는 비전-언어 모델을 공개 API 형태로 제공하거나 로짓을 외부에 노출하는 시스템에서, 의도치 않은 정보 유출 경로가 존재할 수 있음을 보여준다. 애플 ML 연구팀의 이번 결과는 상용 멀티모달 모델의 프라이버시·보안 설계 시 참고해야 할 새로운 공격면(attack surface)을 제시한다.

애플 ML 연구, 비전-언어 모델 '로짓'에서 의도치 않은 정보 유출 확인

관련 기사