엔비디아, 로봇·자율주행 아우르는 첫 오픈 옴니모델 '코스모스 3' 공개
엔비디아가 로봇·자율주행·스마트 공간 개발을 겨냥한 피지컬 AI(Physical AI) 기반 모델 '코스모스 3(Cosmos 3)'를 공개했다. 엔비디아는 이를 물리 세계를 시뮬레이션하고 이해하는 토대로 제시하며, 텍스트·이미지·비디오·오디오·액션을 하나의 모델로 다루는 첫 오픈 옴니모델이라고 소개했다.
이번 릴리스에는 허깅페이스에 모델 카드·라이선스와 함께 올라온 코스모스 3 슈퍼와 코스모스 3 나노, 생성 파이프라인을 위한 디퓨저스(Diffusers) 통합, 자체 데이터로 학습할 수 있는 포스트트레이닝 스크립트(깃허브 제공), 피지컬 AI용 오픈 합성 데이터 생성(SDG) 데이터셋이 포함된다.
가장 큰 변화는 코스모스 3가 '혼합 트랜스포머(Mixture-of-Transformers, MoT)' 구조의 옴니모델이라는 점이다. 기존에는 월드 생성(Cosmos Predict), 제어 생성(Cosmos Transfer), 장면 이해(Cosmos Reason), 정책 생성(Cosmos Policy)을 위해 별도 모델을 써야 했지만, 코스모스 3는 이 모든 기능을 하나의 모델에서 단일 순방향 패스로 처리한다.
이를 통해 텍스트·이미지·비디오·액션 입력으로 물리적으로 그럴듯한 영상 세계를 생성하고, 운동·인과관계·공간 관계 같은 물리적 속성을 추론하며, 현재 상태를 바탕으로 미래의 영상과 액션 시퀀스를 예측할 수 있다. 엔비디아는 로봇의 빨래 개기 학습, 자율주행 시뮬레이션, 창고 안전 시나리오용 합성 학습 데이터 생성 등을 활용 사례로 들었다.
아키텍처 측면에서 코스모스 3는 MoT 백본 위에서 텍스트·이미지·비디오·오디오·액션을 단일 구조로 처리한다. 각 모달리티는 전용 인코더(시각 이해용 ViT, 시각·오디오 생성용 VAE, 액션용 도메인 인식 벡터)로 인코딩된 뒤 공유 표현 공간으로 투영된다.
입력 시퀀스는 두 갈래로 나뉜다. 다음 토큰 예측으로 추론과 이해를 맡는 자기회귀(AR) 하위 시퀀스와, 반복적 노이즈 제거로 생성을 맡는 디퓨전(DM) 하위 시퀀스다. AR과 DM 토큰은 트랜스포머 층마다 별도 파라미터를 쓰면서도 결합 어텐션으로 상호작용해, 구조를 바꾸지 않고도 하나의 모델이 VLM, 영상 생성기, 순·역방향 동역학 모델, 로봇 정책으로 매끄럽게 전환된다.
모델은 두 가지 크기로 나온다. 코스모스 3 나노는 80억(8B) 파라미터(추론기 8B·생성기 8B) 모델로 효율적 추론에 최적화돼 RTX PRO 6000 GPU 같은 워크스테이션급 장비에서 돌아간다. 코스모스 3 슈퍼는 320억(32B) 파라미터(추론기 32B·생성기 32B) 모델로 대규모 합성 데이터 생성과 연구를 위한 것이며, 엔비디아 호퍼·블랙웰 GPU에서 구동된다.
활용 모달리티에 따라 코스모스 3는 비디오 모델, 비전 언어 모델(VLM), 순방향 동역학 모델, 역방향 동역학 모델, 정책 모델로 동작한다. 엔비디아는 영상 생성에는 서술형 문단 형태의 상세한 프롬프트를, 액션 생성에는 공간 정보를 담은 간결한 프롬프트를 권장한다.
코스모스 3는 허깅페이스 디퓨저스 라이브러리와 통합돼, 익숙한 DiffusionPipeline의 Cosmos3OmniPipeline으로 몇 줄의 코드만으로 월드 생성 파이프라인을 쓸 수 있다. 텍스트-투-이미지, 텍스트-투-비디오, 이미지-투-비디오 등의 예제가 함께 제공된다.
엔비디아는 출시와 함께 피지컬 AI 커뮤니티의 월드 파운데이션 모델 학습·평가를 돕는 합성 데이터 생성(SDG) 데이터셋도 공개했다. 로봇 시뮬레이션(Embodied-Robot-Scenes), 아이작 심 물리 시뮬레이션(Physical-Interaction-Scenes), 공간 추론(Spatial-Reasoning), 인간 동작(Digital-Human-Scenes), 자율주행 시나리오(Autonomous-Driving-Scenarios), 창고 안전(Warehouse-Operations-Scenes) 등이며, 학습·서빙을 아우르는 코스모스 프레임워크도 함께 제공된다.