목록으로
연구2026년 5월 8일 AM 05:06

애플 ML 리서치, 이미지 캡션으로 마스크 예측 불확실성 줄이는 'TC-JEPA' 공개… sparse cross-attention 텍스트 조건화, fine-grained 시각 이해·추론서 contrastive 우위

Apple Machine Learning Research가 시각 자가지도학습용 새 모델 'Text-Conditional JEPA(TC-JEPA)'를 공개했다. 마스킹된 패치 위치에서 발생하는 예측 불확실성을 이미지 캡션으로 줄이는 접근으로, 기존 대비 다운스트림 성능과 학습 안정성을 모두 개선했다고 연구진은 밝혔다.

TC-JEPA는 기존 'Image-based Joint-Embedding Predictive Architecture(I-JEPA)' 계열의 한계를 보완하기 위해 설계됐다. I-JEPA는 마스킹된 특징을 예측하는 방식으로 시각적 표현을 학습하지만, 마스킹된 위치에는 본질적으로 시각적 불확실성이 존재하기 때문에 특징 예측이 어렵고 의미적 표현 학습에 실패할 수 있다는 점이 지적돼왔다.

TC-JEPA는 이러한 예측 불확실성을 이미지 캡션으로 보완한다. 구체적으로 입력 텍스트 토큰에 대해 희소(sparse) cross-attention을 계산하는 fine-grained 텍스트 컨디셔너를 사용해 예측된 패치 특징을 변조한다. 이러한 조건화를 통해 패치 특징이 텍스트의 함수로서 예측 가능해지고, 결과적으로 의미론적으로 더 풍부한 표현이 학습된다는 설명이다.

연구진은 TC-JEPA가 다운스트림 성능과 학습 안정성 모두에서 향상을 보였으며, 모델 규모를 키울 때의 스케일링 특성도 유망하다고 보고했다.

TC-JEPA는 또한 특징 예측만으로 동작하는 새로운 vision-language pretraining 패러다임을 제시한다. 다양한 과제에서 contrastive 방식을 능가했으며, 특히 fine-grained 시각 이해와 추론이 요구되는 과제에서 뚜렷한 우위를 보였다는 것이 연구의 핵심 결론이다.

논문 저자는 Chen Huang, Xianhang Li, Vimal Thilak, Etai Littwin, Josh Susskind 5인이다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사