애플 ML 리서치, 이미지 캡션으로 마스크 예측 불확실성 줄이는 'TC-JEPA' 공개… sparse cross-attention 텍스트 조건화, fine-grained 시각 이해·추론서 contrastive 우위
Apple Machine Learning Research가 시각 자가지도학습용 새 모델 'Text-Conditional JEPA(TC-JEPA)'를 공개했다. 마스킹된 패치 위치에서 발생하는 예측 불확실성을 이미지 캡션으로 줄이는 접근으로, 기존 대비 다운스트림 성능과 학습 안정성을 모두 개선했다고 연구진은 밝혔다.
TC-JEPA는 기존 'Image-based Joint-Embedding Predictive Architecture(I-JEPA)' 계열의 한계를 보완하기 위해 설계됐다. I-JEPA는 마스킹된 특징을 예측하는 방식으로 시각적 표현을 학습하지만, 마스킹된 위치에는 본질적으로 시각적 불확실성이 존재하기 때문에 특징 예측이 어렵고 의미적 표현 학습에 실패할 수 있다는 점이 지적돼왔다.
TC-JEPA는 이러한 예측 불확실성을 이미지 캡션으로 보완한다. 구체적으로 입력 텍스트 토큰에 대해 희소(sparse) cross-attention을 계산하는 fine-grained 텍스트 컨디셔너를 사용해 예측된 패치 특징을 변조한다. 이러한 조건화를 통해 패치 특징이 텍스트의 함수로서 예측 가능해지고, 결과적으로 의미론적으로 더 풍부한 표현이 학습된다는 설명이다.
연구진은 TC-JEPA가 다운스트림 성능과 학습 안정성 모두에서 향상을 보였으며, 모델 규모를 키울 때의 스케일링 특성도 유망하다고 보고했다.
TC-JEPA는 또한 특징 예측만으로 동작하는 새로운 vision-language pretraining 패러다임을 제시한다. 다양한 과제에서 contrastive 방식을 능가했으며, 특히 fine-grained 시각 이해와 추론이 요구되는 과제에서 뚜렷한 우위를 보였다는 것이 연구의 핵심 결론이다.
논문 저자는 Chen Huang, Xianhang Li, Vimal Thilak, Etai Littwin, Josh Susskind 5인이다.
관련 기사
美 에너지장관 Wright·NVIDIA Ian Buck, 'Genesis Mission' 공동 출연… Argonne 'Equinox' Grace Blackwell 1만개·'Solstice' Vera Rubin 10만개·5,000엑사플롭스, Hopper→Blackwell 성능 30배·와트당 25배
Mozilla, Anthropic 'Mythos'로 Firefox 취약점 271건 2개월간 탐지… '거의 false positive 없음', 커스텀 'agent harness'가 핵심
앤트로픽, Claude 활성값을 자연어로 풀어내는 'NLA' 공개… SWE-bench 평가 인식 26%·코드 파괴 시뮬 16%·실사용 1% 미만, 감사 게임 정답률 12~15%