애플 ML 리서치, '장기 모션 임베딩' 논문 공개… 시간 64배 압축·텍스트/공간 포크 입력으로 장시간 모션 효율 생성
애플 머신러닝 리서치가 장기 모션 임베딩(Long-Term Motion Embedding)을 활용한 효율적 키네마틱 생성을 다룬 논문 'Learning Long-Term Motion Embeddings for Efficient Kinematics Generation'을 공개했다. 닉 스트라케, 콜야 바우어, 슈테판 안드레아스 바우만, 미겔 앙헬 바우티스타, 조시 서스킨드, 비외른 오머가 저자로 이름을 올렸다.
연구는 모션의 이해와 예측이 시각 지능의 핵심이지만, 가능한 여러 미래를 탐색하기 위해 풀 비디오 합성을 반복하는 방식이 매우 비효율적이라는 문제 의식에서 출발한다. 최신 비디오 모델이 장면 동역학을 잘 이해함에도 다양한 시나리오를 탐색하는 비용이 너무 크다는 것이다.
연구진은 장면 동역학을 직접 모션 임베딩 위에서 모델링해 효율을 수십 배(orders of magnitude) 끌어올린다고 밝혔다. 이 모션 임베딩은 추적기(tracker) 모델에서 얻은 대규모 궤적 데이터로부터 학습된다.
이렇게 만든 임베딩 공간에서는 텍스트 프롬프트 또는 공간 포크(spatial pokes)로 지정된 목표를 충족하는 길고 사실적인 모션을 효율적으로 생성할 수 있다.
핵심 기법은 시간 축에서 64배 압축률을 가진 고도 압축 모션 임베딩을 우선 학습하는 것이다. 이 압축된 공간에서 작업 설명에 조건화한 모션 잠재변수를 생성하기 위해 조건부 플로 매칭(conditional flow-matching) 모델을 학습한다.
그 결과 도출된 모션 분포는 최신 비디오 모델뿐 아니라 작업별로 특화된 기존 접근법(specialized task-specific approaches)도 능가했다고 연구진은 밝혔다.