목록으로
연구2026년 6월 4일 AM 12:35

엔비디아, CVPR서 로봇 잡기·자율주행 등 피지컬 AI 연구 3편 공개

엔비디아 리서치가 컴퓨터비전·패턴인식 학회(CVPR)에서 피지컬 AI 연구의 서로 다른 과제를 다룬 논문 3편을 발표했다. 세 논문은 '대규모로 학습하면 다양한 응용에 일반화하는 시스템이 만들어진다'는 공통된 주제를 공유하며, 각각 로봇 그래스핑(잡기), 자율주행, 가상 환경에서의 에이전트 학습을 다룬다. 엔비디아는 이와 함께 자율주행차·로봇·비전 AI 개발을 돕는 새 피지컬 AI 에이전트 스킬도 CVPR에서 공개했다.

첫 번째 논문 '그래스프젠-X(GraspGen-X)'는 제로샷 그래스핑을 위한 첫 파운데이션 모델이다. 기존 로봇 잡기 AI는 대부분 특정 그리퍼 전용이라, 두 손가락 그리퍼용으로 학습한 정책은 그 두 손가락으로만 잡을 수 있고 다관절 그리퍼용 정책도 해당 그리퍼에서만 작동했다. 새로운 형태가 나올 때마다 학습 데이터·미세조정·검증을 처음부터 반복해야 했고, 이 때문에 로봇 기업 대부분은 그리퍼 하나를 골라 거기에 맞춰 학습하고 그대로 써왔다.

그래스프젠-X는 이 병목을 없애기 위해, 대형 언어모델이 재학습 없이 새 과제에 언어 이해를 적용하듯 기하학·접촉에 대한 이해를 처음 보는 그리퍼에도 적용한다. 새 그리퍼의 형상과 처음 보는 물체가 주어지면 로봇이 그 물체를 잡을 수 있는 신뢰할 만한 그래스핑 자세를 생성한다. 연구진은 현실에서는 대규모로 수집하기 불가능한 데이터를 위해 수천 가지 물체 형상과 합성 그리퍼 구성에 걸쳐 20억 건의 시뮬레이션 그래스핑을 생성했다. 이 모델은 그리퍼별 학습 주기를 없애고 흔히 쓰이는 여러 그리퍼에 곧바로 적용할 수 있으며, 새 CUDA 가속 모션 플래닝 라이브러리 '쿠로보V2(curoboV2)'와 함께 미지의 환경에서 그래스핑 자세를 구현한다. 이 연구를 기반으로 ICRA 2026에서 발표된 후속 논문 '그래스프-MPC'는 그래스핑 생성에서 폐루프 그래스핑 실행으로 한 단계 더 나아갔다.

두 번째 논문 'LCDrive'는 자율주행차가 차량 안 하드웨어에서 더 빠르게 추론하도록 한다. AI가 답을 내기 전 중간 사고 단계를 생성하는 추론이 판단을 개선해주지만, 텍스트 기반 사고 사슬은 단어를 하나씩 토큰으로 만들어내며 차량 내 프로세서에서는 토큰 수가 응답 속도를 제약한다. LCDrive는 단어 대신 압축된 잠재 표현으로 사고함으로써 이 문제를 푼다.

이 구조는 사람이 읽을 수 있는 추론 단계를 만드는 대신 공간 정보를 담은 압축 잠재 공간에서 사고하며, 후보 행동을 제안한 뒤 그 행동을 취했을 때 세계가 어떻게 보일지 예측하는 두 가지 사고를 번갈아 한다. 그렇게 예측한 세계 상태로 다음 단계를 다듬는 것이다. 그 결과 텍스트 기반 추론과 비슷한 수준의 궤적 품질을 약 절반의 토큰으로 달성했다. 이 모델은 엔비디아 알파마요를 기반으로 기존 차량 데이터에서 끌어낸 지도학습으로 훈련됐다.

세 번째 논문 '나이트로젠(NitroGen)'은 가상 환경에서 체화 에이전트를 학습시키는 범용 게임플레이 AI 파운데이션 모델이다. 휴머노이드 로봇용 오픈 파운데이션 모델 '아이작 그루트(Isaac GR00T)'가 충분히 다양한 상황에 노출되면 보지 못한 상황에도 일반화한다는 원리에 기반하는데, 나이트로젠은 그루트 구조를 활용해 이 원리를 가상 환경으로 확장한다. 비디오 게임은 명확한 목표와 성공 조건을 갖춘 구조적이고 다양한 세계를 대규모로 제공하기 때문이다.

나이트로젠은 그루트 기반 모델로 1,000종이 넘는 게임과 4만 시간의 상호작용에 걸쳐 학습됐으며, 액션 롤플레잉·플랫포머·로그라이크·오픈월드 게임 전반에서 전투·내비게이션·탐험을 아우르는 플레이 행동을 보였다. "이 물건들을 식료품 저장실에 정리해줘" 같은 폭넓은 지시로 집안일을 돕는 로봇처럼, 결국 새로운 현실·시뮬레이션 상황을 다루도록 학습될 에이전트의 훈련장으로 게임을 활용하는 것이다. 새 환경의 예시를 몇 개만 본 저데이터 상황에서 나이트로젠으로 시작하면 기존 최고 기법 대비 성능이 최대 52% 향상됐다. 이 모델은 오픈소스로 깃허브와 허깅페이스에 공개됐다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사