연구2026년 5월 8일 AM 05:06

애플 ML 리서치, 이미지 캡션으로 마스크 예측 불확실성 줄이는 'TC-JEPA' 공개… sparse cross-attention 텍스트 조건화, fine-grained 시각 이해·추론서 contrastive 우위

Apple Machine Learning Research가 시각 자가지도학습용 새 모델 'Text-Conditional JEPA(TC-JEPA)'를 공개했다. 마스킹된 패치 위치에서 발생하는 예측 불확실성을 이미지 캡션으로 줄이는 접근으로, 기존 대비 다운스트림 성능과 학습 안정성을 모두 개선했다고 연구진은 밝혔다.

TC-JEPA는 기존 'Image-based Joint-Embedding Predictive Architecture(I-JEPA)' 계열의 한계를 보완하기 위해 설계됐다. I-JEPA는 마스킹된 특징을 예측하는 방식으로 시각적 표현을 학습하지만, 마스킹된 위치에는 본질적으로 시각적 불확실성이 존재하기 때문에 특징 예측이 어렵고 의미적 표현 학습에 실패할 수 있다는 점이 지적돼왔다.

TC-JEPA는 이러한 예측 불확실성을 이미지 캡션으로 보완한다. 구체적으로 입력 텍스트 토큰에 대해 희소(sparse) cross-attention을 계산하는 fine-grained 텍스트 컨디셔너를 사용해 예측된 패치 특징을 변조한다. 이러한 조건화를 통해 패치 특징이 텍스트의 함수로서 예측 가능해지고, 결과적으로 의미론적으로 더 풍부한 표현이 학습된다는 설명이다.

연구진은 TC-JEPA가 다운스트림 성능과 학습 안정성 모두에서 향상을 보였으며, 모델 규모를 키울 때의 스케일링 특성도 유망하다고 보고했다.

TC-JEPA는 또한 특징 예측만으로 동작하는 새로운 vision-language pretraining 패러다임을 제시한다. 다양한 과제에서 contrastive 방식을 능가했으며, 특히 fine-grained 시각 이해와 추론이 요구되는 과제에서 뚜렷한 우위를 보였다는 것이 연구의 핵심 결론이다.

논문 저자는 Chen Huang, Xianhang Li, Vimal Thilak, Etai Littwin, Josh Susskind 5인이다.

애플 ML 리서치, 이미지 캡션으로 마스크 예측 불확실성 줄이는 'TC-JEPA' 공개… sparse cross-attention 텍스트 조건화, fine-grained 시각 이해·추론서 contrastive 우위

관련 기사