엔비디아 NVlabs, NVFP4로 45.7 FPS 실시간 장편 영상 만드는 LongLive 2.0 공개
엔비디아 NVlabs가 자사의 실시간 장편 비디오 생성 시스템 LongLive 2.0을 깃허브에 공개했다. NVFP4 4비트 양자화를 활용한 병렬 인프라로, 5B 파라미터 모델을 NVFP4의 2단계 증류 설정으로 돌리면 초당 45.7프레임의 실시간 추론이 가능하다고 명시됐다.
저장소가 공개한 벤치마크 표에 따르면 가장 가벼운 LongLive-1.3B는 1.3B 파라미터로 20.7 FPS, VBench 84.87점을 기록했다. 5B 파라미터의 LongLive-2.0-5B는 BF16 추론에서 24.8 FPS와 VBench 85.06점을 보였고, 이를 NVFP4 4단계 증류로 압축한 4Step 변형은 29.7 FPS와 VBench 84.51점, 2단계 증류인 2Step 변형은 45.7 FPS와 VBench 83.14점을 찍었다. 4비트로 내릴수록 속도는 거의 두 배가 되고 품질은 1~2점 범위에서만 떨어진 셈이다.
LongLive 1.0은 ICLR 2026에 채택된 실시간 인터랙티브 장편 영상 생성 시스템이다. 사용자가 프롬프트를 연이어 입력하면 그 흐름에 따라 영상을 실시간으로 이어 만들어 간다는 점이 특징이며, 저장소는 어텐션 싱크, KV 리캐시, 스트리밍 장기 튜닝을 핵심 기법으로 들고 있다.
2.0에서는 NVFP4 양자화를 학습과 추론 양쪽에 적용했다. 학습 측에는 균형형 시퀀스 병렬을 활용한 자기회귀(AR) 학습, 단일 샷과 다중 샷 영상에 대한 AR 학습, NVFP4 또는 BF16에서의 적은 단계 증류가 들어갔다. 추론 측에는 NVFP4 W4A4 추론과 NVFP4 KV 캐시, 다중 샷 어텐션 싱크, 시퀀스 병렬 추론, 비동기 디코딩이 포함됐다.
저장소의 변경 이력은 비교적 촘촘하다. 2025년 9월 29일 LongLive 논문과 코드, 가중치 LongLive-1.3B를 공개했고, 11월 3일에는 선형 어텐션 기반 SANA-Video에 LongLive를 옮겨 60초 분량 인터랙티브 영상을 실시간 생성하도록 적용했다. 2026년 1월에는 원래의 RoPE를 KV 캐시 상대 RoPE로 바꿔 무한 길이의 영상을 만들 수 있게 했다고 밝혔다.
2026년 4월 12일에는 TriAttention 기반 KV 캐시 압축을 추가해 KV 사용량을 50% 줄이면서 품질 저하는 없었다고 보고했다. 같은 해 1월 27일 ICLR 2026 채택이 공지됐고, 2.0은 2026년 5월 13일자 업데이트로 합류했다. 기존 1.0 코드는 별도의 v1.0 브랜치로 분리됐다.
코드와 가중치는 Apache 2.0 라이선스로 공개됐다. AR 학습 코드와 수식은 Self-Forcing을 토대로 만들었고, 영상 디퓨전의 기본 구성은 Wan2.2 모델 부품을 그대로 가져와 썼다고 명시됐다.