연구2026년 4월 21일 AM 08:08

애플 ML 리서치, '로짓이 무엇을 알고 있는가' 논문 공개… 비전-언어 모델의 정보 누출 위험 첫 체계적 비교

애플 머신러닝 연구팀이 모델 내부 표상에서 발생하는 정보 누출 위험을 다룬 신규 논문 'What Do Your Logits Know? (The Answer May Surprise You!)'를 공개했다.

논문은 Masha Fedzechkina, Eleonora Gualdoni, Rita Ramos, Sinead Williamson 4명이 공동 저술했다.

연구진은 최근 연구에서 모델 내부를 탐사(probing)하면 모델 출력만으로는 드러나지 않는 풍부한 정보가 밝혀질 수 있다는 점을 출발점으로 삼았다. 이는 모델 소유자가 접근 불가능하다고 가정한 정보를 사용자가 학습하게 되는, 의도적·악의적 정보 누출 위험을 야기한다.

연구진은 비전-언어 모델(vision-language models)을 실험 대상(testbed)으로 삼아, 잔차 스트림(residual stream)에 인코딩된 풍부한 정보가 서로 다른 '표상 수준(representational levels)'으로 압축되는 양상을 첫 체계적으로 비교했다.

비교 대상으로 삼은 두 가지 자연스러운 병목은 다음과 같다. 하나는 tuned lens를 활용해 얻는 잔차 스트림의 저차원 투영(low-dimensional projections)이고, 다른 하나는 모델 답변에 가장 큰 영향을 미치는 최상위 로짓(top logits)이다.

핵심 결과로, 모델의 최상위 로짓 값으로 정의된 비교적 쉽게 접근 가능한 병목조차 이미지 기반 쿼리(image-based query)에 포함된 과제와 무관한(task-irrelevant) 정보를 누출할 수 있음을 보였다. 일부 사례에서는 전체 잔차 스트림의 직접 투영(direct projections)만큼이나 많은 정보를 드러냈다.

애플 ML 리서치, '로짓이 무엇을 알고 있는가' 논문 공개… 비전-언어 모델의 정보 누출 위험 첫 체계적 비교

관련 기사