엔비디아, 언어부터 영상·행동까지 생성하는 월드모델 코스모스 3 공개
엔비디아가 로봇과 자율주행, 스마트 인프라 등 물리 세계용 AI(피지컬 AI)를 만들기 위한 오픈 플랫폼 '코스모스(Cosmos)'의 최신 모델군 코스모스 3를 공개했다. 코스모스는 월드 모델과 데이터셋, 도구를 모은 개방형 플랫폼으로, 이번 코스모스 3가 가장 새로운 라인업이다.
코스모스 3는 언어와 이미지, 영상, 오디오, 행동 시퀀스를 하나의 통합된 '믹스처 오브 트랜스포머스(Mixture-of-Transformers, MoT)' 구조 안에서 함께 이해하고 생성하는 옴니모달 월드 모델이다. 엔비디아는 이 모델이 비전언어모델과 영상 생성기, 월드 시뮬레이터, 월드-행동 모델을 하나의 틀로 사실상 흡수한다고 설명했다.
코스모스 3는 두 가지 실행 형태를 제공한다. '리즈너(Reasoner)'는 텍스트와 영상을 입력받아 텍스트를 내놓으며 세계 이해와 그라운딩, 물리 추론, 작업 계획, 행동 예측, 체화 에이전트 추론, 자율 시스템 의사결정에 쓰인다. '제너레이터(Generator)'는 텍스트·영상·소리·행동을 입력받아 영상·소리·행동을 생성해 세계 생성과 시뮬레이션, 미래 예측, 합성 데이터 생성, 정책 학습, 로봇 훈련에 활용된다.
구조적으로는 추론을 맡는 자기회귀(AR) 트랜스포머와 멀티모달 생성을 맡는 확산(diffusion) 트랜스포머를 결합한 MoT다. 리즈너 모드에서는 인과적 셀프 어텐션으로 다음 토큰을 예측하고, 제너레이터 모드에서는 노이즈가 섞인 이미지·영상·오디오·행동 토큰을 풀 어텐션으로 복원한다. 두 모드는 같은 트랜스포머와 멀티모달 어텐션 계층, 그리고 공간·시간 구조를 인코딩하는 3차원 mRoPE 표현을 공유한다.
모델 라인업은 컴팩트한 옴니모달 월드 모델인 코스모스3-나노(16B)와 프런티어급인 코스모스3-슈퍼(64B)를 중심으로 한다. 여기에 고품질 텍스트-이미지 생성용 코스모스3-슈퍼-Text2Image(64B), 시간적으로 일관된 이미지-영상 생성용 코스모스3-슈퍼-Image2Video(64B), DROID 조작·제어용 비전언어 로봇 정책 모델인 코스모스3-나노-Policy-DROID(16B)가 더해진다.
생성 사양을 보면 256p·480p·720p 해상도(기본 480p)와 10·16·24·30 FPS 프레임레이트(기본 24)를 지원하고, 한 번에 5프레임에서 300프레임(기본 189)까지 만들 수 있다. 영상과 함께 생성할 때는 48kHz 스테레오 AAC 사운드를 출력한다.
행동 조건화는 체화 형태에 따라 차원이 달라진다. 카메라 모션과 자율주행은 각각 9차원, 1인칭 시점 모션은 57차원, 단일 팔 로봇은 10차원, 양팔 로봇은 20차원, 휴머노이드(AgiBot)는 29차원의 행동 입력을 받는다.
개발 경로로는 파이썬 우선 개발을 위한 Diffusers와 Transformers, OpenAI 호환 서빙을 위한 vLLM-Omni와 vLLM을 제시했다. 리즈너는 이미지·영상 입력에 Qwen3-VL 호환 메시지 규약을 따른다. 모델은 BF16 정밀도로 검증됐으며 엔비디아 암페어·호퍼·블랙웰 GPU와 리눅스 환경을 지원한다. 코스모스 3는 깃허브에 오픈 플랫폼으로 공개돼 트렌딩에서 주목받고 있다.