연구2026년 5월 1일 AM 01:34

애플, 비디오용 정규화 흐름 모델 'STARFlow-V' 공개… 디퓨전 일색 비디오 생성에 NF 기반 첫 입증, t2v·i2v·v2v 단일 모델 지원

애플 머신러닝 리서치가 정규화 흐름(Normalizing Flows, NFs) 기반 비디오 생성 모델 'STARFlow-V'를 공개했다. NFs는 연속 데이터에 대한 종단간(end-to-end) 우도 기반 생성 모델로 최근 이미지 생성에서 다시 주목받았으나, 시공간 복잡성과 연산 비용이 큰 비디오 생성 영역에서는 SOTA 시스템이 거의 전적으로 디퓨전 기반 모델에 의존해 왔다.

STARFlow-V는 종단간 학습, 견고한 인과(causal) 예측, 네이티브 우도 추정 등을 장점으로 내세운다. 최근 제안된 STARFlow를 기반으로, 시공간(spatiotemporal) 잠재 공간에서 동작하는 글로벌-로컬(global-local) 아키텍처를 채택했다. 인과 의존성을 글로벌 잠재 공간으로 제한하면서도 프레임 내부의 풍부한 로컬 상호작용을 보존하는 설계다.

이 구조는 표준 자기회귀(autoregressive) 디퓨전 모델 생성에서 흔히 발생하는 시간 누적 오류를 완화한다고 연구진은 설명한다. 이에 더해 자기회귀 방식의 비디오 생성 일관성을 높이기 위해 가벼운 인과 디노이저를 결합한 'flow-score matching'을 새롭게 제안했다.

샘플링 효율을 높이기 위한 장치로는 비디오 인지(video-aware) Jacobi 반복 기법이 도입됐다. 인과성을 깨지 않으면서 내부 업데이트를 병렬화 가능한 반복으로 재구성한다.

역가능(invertible) 구조 덕분에 동일한 모델이 텍스트→비디오, 이미지→비디오, 비디오→비디오 생성 작업을 네이티브로 지원한다. 실증적으로는 디퓨전 기반 베이스라인 대비 실용적인 샘플링 처리량과 함께 강한 시각적 충실도(fidelity)와 시간적 일관성을 달성했다.

연구진은 이번 결과가 NFs로도 고품질 자기회귀 비디오 생성이 가능함을 보여주는 자신들이 아는 한 첫 증거라고 평가하며, NFs를 월드 모델(world model) 구축의 유망한 연구 방향으로 자리매김한다고 밝혔다.

저자는 Jiatao Gu, Ying Shen, Tianrong Chen, Laurent Dinh, Yuyang Wang, Miguel Ángel Bautista, David Berthelot, Josh Susskind, Shuangfei Zhai다.

애플, 비디오용 정규화 흐름 모델 'STARFlow-V' 공개… 디퓨전 일색 비디오 생성에 NF 기반 첫 입증, t2v·i2v·v2v 단일 모델 지원

관련 기사