연구2026년 5월 18일 PM 08:08

NVIDIA, 'SANA-WM' 2.6B 월드모델 공개… 720p 1분 영상에 6-DoF 카메라 제어

엔비디아 연구소(NVlabs)가 GitHub의 SANA 저장소에 2.6B 파라미터 규모의 제어 가능한 월드 모델 'SANA-WM'을 추가했다. 720p 해상도로 1분 길이의 비디오를 생성할 수 있고, 6-DoF(6자유도) 카메라 제어를 지원해 월드 모델링과 임바디드 AI 연구의 새 기준을 제시하는 것이 목표다.

SANA는 고해상도 이미지·비디오 생성을 위한 효율 중심 디퓨전 모델 계열이다. 텍스트-이미지 생성을 4K 해상도까지 지원하며, NVlabs는 12B 파라미터의 Flux-12B 대비 모델 크기는 20배 작고 속도는 100배 빠르다고 명시했다.

저장소에는 SANA, SANA-1.5, SANA-Sprint, SANA-Video, SANA-WM, Sol-RL 코드가 함께 묶여 있다. SANA-Sprint는 sCM(연속 시간 일관성) 디스틸레이션 기반 One/few-step 생성을 적용해 H100에서 1024px 이미지 한 장을 0.1초, RTX 4090에서는 0.3초에 만들어 낸다.

2026년 4월에는 'Sol-RL'을 함께 공개했다. 롤아웃은 NVFP4 저정밀, 학습 최적화는 BF16 고정밀로 분리해 RL 학습 수렴 속도를 4.64배 끌어올린 방식이다. SANA뿐 아니라 FLUX.1, SD3.5-L용 학습 레시피와 사후 학습 데이터셋이 함께 들어 있다.

비디오 쪽은 2025년 10월 SANA-Video 본체에 이어 2025년 12월 'LongSANA'가 추가됐다. LongSANA는 분 단위 길이의 비디오를 27FPS 실시간으로 생성할 수 있고, SANA-Video 자체는 ICLR-2026에서 Oral로 채택됐다. 2026년 3월에는 720p SANA-Video 모델이 LTX-VAE와 함께 공개돼 LTX2 Refiner로 2K 업스케일까지 연결된다.

효율의 핵심 기법으로는 DiT의 일반 어텐션을 선형 어텐션(Linear Attention)으로 대체한 점, 잠재 토큰을 줄이는 32배 압축 DC-AE, 디코더 전용 LLM을 텍스트 인코더로 활용해 텍스트-이미지 정렬을 강화한 설계, 긴 비디오용 블록 인과 선형 어텐션과 Causal Mix-FFN, Flow-DPM-Solver 샘플링 등이 묶여 있다.

배포·서빙 측면에서는 2026년 2월 OpenAI 호환 API 기반 고성능 서빙 프레임워크 SGLang에 SANA가 정식 지원되기 시작했다. 2026년 3월에는 Cosmos-RL과 파트너십을 맺어 SANA-Image·SANA-Video를 위한 SFT·RL 사후 학습 인프라(Diffusion-NFT, Flow-GRPO 등 알고리즘, 리워드 서비스, 데이터셋 포함)까지 갖췄다.

2025년 1월 SANA 코드베이스 라이선스는 Apache 2.0으로 변경됐고, GitHub 누적 별은 6,272개, 하루 새 별 증가폭은 472개로 집계됐다.

NVIDIA, 'SANA-WM' 2.6B 월드모델 공개… 720p 1분 영상에 6-DoF 카메라 제어

관련 기사