애플 ML 리서치, 비디오→스테레오 사운드 생성 'StereoFoley' 공개… 48kHz 객체 인지 오디오·합성 데이터 파이프라인으로 SOTA
애플 머신러닝 리서치팀이 비디오로부터 객체 인지(object-aware) 스테레오 오디오를 생성하는 새 프레임워크 'StereoFoley'를 공개했다. 이 모델은 의미적으로 정렬되고 시간적으로 동기화된 48kHz 스테레오 사운드를 생성하며, 영상 속 객체의 공간적 위치까지 정확히 반영한다는 점이 핵심 차별점이다.
연구진은 최근 생성형 비디오-오디오 모델의 한계를 지적했다. 의미·시간적 충실도(semantic and temporal fidelity)에서는 강한 성능을 보였지만, 대다수가 모노 출력에 머물거나 객체 인지 스테레오 이미징을 구현하지 못했다는 평가다. 그 근본 원인으로는 전문적으로 믹싱되고 공간적으로 정확한 비디오-오디오 데이터셋의 부재가 지목됐다.
StereoFoley는 세 단계로 구성된다. 첫 단계에서는 비디오로부터 스테레오 오디오를 생성하는 베이스 모델을 직접 개발·학습시켰다. 연구진은 이 베이스 모델이 의미 정확도와 동기화 모두에서 SOTA(state-of-the-art) 수준을 달성했다고 밝혔다.
두 번째 단계에서는 데이터셋 한계를 극복하기 위한 합성 데이터 생성 파이프라인을 도입했다. 비디오 분석, 객체 추적(object tracking), 오디오 합성을 결합하고 여기에 동적 패닝(dynamic panning)과 거리 기반 라우드니스(distance-based loudness) 제어를 적용해, 공간적으로 정확한 객체 인지 사운드를 합성할 수 있도록 했다.
마지막 단계에서는 이 합성 데이터셋으로 베이스 모델을 파인튜닝해, 객체와 오디오 간 명확한 대응 관계를 확보했다. 이를 통해 영상 속 객체의 위치·움직임이 스테레오 채널에 자연스럽게 반영되는 결과로 이어졌다는 설명이다.
평가 측면에서도 새로운 기여가 더해졌다. 객체 인지 스테레오에 대한 정립된 측정 기준이 존재하지 않았던 만큼, 연구진은 별도의 스테레오 객체 인지 측정 지표(stereo object-awareness measures)를 직접 제안했다. 해당 지표는 인간 청취 실험(human listening study)을 통해 검증됐고, 인간의 지각과 강한 상관관계를 보였다고 보고됐다.
논문 저자는 토르니케 카르크히드제(Tornike Karchkhadze), 콴-린 첸(Kuan-Lin Chen), 모지타바 헤이다리(Mojtaba Heydari), 로버트 헨젤(Robert Henzel), 알레산드로 토소(Alessandro Toso), 메레즈 수덴(Mehrez Souden), 조슈아 앳킨스(Joshua Atkins) 등이다.
연구진은 StereoFoley를 '스테레오 객체 인지 비디오-오디오 생성에 대한 최초의 엔드투엔드 프레임워크'로 평가하며, 이 분야에 새로운 벤치마크를 제시했다고 자평했다. 애플 ML 리서치는 이와 함께 1차 앰비소닉스(FOA) 4채널을 생성하는 3D 몰입형 사운드스케이프 모델 'ImmerseDiffusion'(2025년 2월), 공간 인지 언어·오디오 임베딩 학습(2024년 12월·NeurIPS) 등 인접 연구도 함께 진행하고 있다.
관련 기사
애플 ML 리서치, 조건부 디퓨전 '구성적 일반화' 메커니즘 규명… 'local conditional scores' 등가성 증명·SDXL 특징공간서 정량 입증
엔비디아 Nemotron 3 Nano Omni, AWS SageMaker JumpStart 데이 제로 등록… 30B/3B MoE·131K 컨텍스트로 비디오·오디오·이미지·텍스트 단일 추론
Anthropic Claude Mythos 발표 후 'AI 무장 script kiddie' 경고 확산… DARPA AIxCC서 5,400만 줄 스캔, 비의도 버그 12개+ 발견·Claude Opus 4.7엔 사이버 안전장치 첫 도입