애플 ML 연구진, 장기 모션 임베딩 'Kinematics Generation' 공개… 시간축 64배 압축·조건부 플로우 매칭으로 SOTA 비디오 모델 능가
애플 머신러닝 리서치팀이 'Learning Long-Term Motion Embeddings for Efficient Kinematics Generation' 논문을 공개했다. 닉 스트라케(Nick Stracke), 콜랴 바우어(Kolja Bauer), 슈테판 안드레아스 바우만(Stefan Andreas Baumann), 미겔 앙헬 바우티스타(Miguel Ángel Bautista), 조시 서스킨드(Josh Susskind), 비외른 옴머(Björn Ommer)가 공동 저자다.
연구진은 모션을 이해하고 예측하는 능력이 시각 지능의 근본 요소라고 전제한다. 최신 비디오 모델은 장면 동역학을 잘 이해하지만, 풀 비디오 합성으로 가능한 여러 미래를 탐색하는 방식은 비용 면에서 사실상 비효율적이라는 점을 한계로 지적한다.
이 논문은 풀 비디오 합성 대신 '장기 모션 임베딩(long-term motion embedding)'을 직접 조작하는 접근으로 장면 동역학을 수십 배 이상(orders of magnitude) 더 효율적으로 모델링한다. 이 임베딩은 트래커 모델에서 얻은 대규모 궤적(trajectories) 데이터를 통해 학습된다.
핵심 절차는 두 단계로 구성된다. 먼저 시간축으로 64배 압축된 고도로 압축된 모션 임베딩을 학습한다. 이후 이 잠재 공간 위에서 작업 설명(task descriptions)을 조건으로 모션 잠재 변수를 생성하는 '조건부 플로우 매칭(conditional flow-matching)' 모델을 훈련한다.
사용자는 텍스트 프롬프트(text prompts) 또는 공간적 포크(spatial pokes) 형식의 목표 지시를 통해 길고 사실적인 모션을 생성할 수 있다.
논문은 이렇게 생성된 모션 분포가 최신(state-of-the-art) 비디오 모델뿐 아니라 작업별로 특화된 접근법까지 모두 능가했다고 명시했다.