AWS, 엔비디아 아이작 랩으로 휴머노이드 로봇 강화학습 클라우드 훈련법 공개
AWS가 머신러닝 블로그를 통해 엔비디아 아이작 랩(NVIDIA Isaac Lab)과 아마존 세이지메이커 AI를 결합해 로봇 강화학습 정책을 대규모로 훈련하는 방법을 공개했다. 물리적 환경에서 동작하는 피지컬 AI가 연구 단계를 넘어 공장과 물류 창고 등 실제 생산 현장으로 이동하면서, 로봇을 고정밀 시뮬레이션에서 먼저 훈련한 뒤 배치하는 흐름이 자리 잡고 있다.
실제 환경에서의 로봇 훈련은 느리고 비용이 크며 때로는 위험하다. 반면 GPU 가속 시뮬레이션은 수개월에 걸친 학습을 수 시간으로 압축할 수 있어, 과제의 무게중심이 데이터가 아닌 연산으로 옮겨간다. 거친 지형에서의 휴머노이드 보행처럼 복잡한 행동을 학습하는 강화학습은 연산 집약적이어서, 단일 노드 훈련만으로도 수 시간에서 수 일이 걸린다.
AWS는 이 과제를 두 가지 세이지메이커 연산 옵션으로 풀어낸다. 보상 함수와 관측 공간, 모델 구조를 조정하는 짧은 반복 실험에는 세이지메이커 트레이닝 잡이, 조정된 설정을 수렴까지 학습시키는 장기 생산 실행에는 세이지메이커 하이퍼팟(HyperPod)이 적합하다고 설명했다.
세이지메이커 하이퍼팟은 대규모 파운데이션 모델의 분산 훈련과 추론을 위한 관리형 인프라로, 복원력이 핵심이다. 각 노드에서 상태 점검 에이전트가 기본 및 심층 헬스 체크를 수행하고, 결함이 감지되면 인스턴스를 자동으로 재부팅하거나 교체한다. 자동 재개 기능을 통해 교체 노드가 준비되면 마지막 체크포인트에서 훈련을 다시 시작하므로 수동 개입이 필요 없다.
하이퍼팟은 아마존 EKS 또는 Slurm으로 오케스트레이션되며, 옵저버빌리티 애드온이 수백 개의 클러스터·노드·작업 지표를 아마존 매니지드 프로메테우스로 전송하고 매니지드 그라파나 대시보드로 시각화한다. Kueue 기반의 태스크 거버넌스로 클러스터를 네임스페이스 단위 큐로 나누고 연산 쿼터와 우선순위, 선점을 설정할 수 있으며, 엔비디아 멀티 인스턴스 GPU(MIG)를 활용한 GPU 파티션 단위 할당도 가능하다.
세이지메이커 트레이닝 잡은 장기 운영 인프라를 유지하지 않고 컨테이너화된 훈련 워크로드를 온디맨드로 실행하는 방식이다. 작업마다 GPU 인스턴스를 프로비저닝하고 컨테이너를 받아 훈련을 수행한 뒤 결과물을 아마존 S3에 올리고 인스턴스를 종료하므로, 실행 사이에 유휴 연산 비용이 발생하지 않는다. 설정이 자주 바뀌는 반복 실험과 여러 짧은 실행을 병렬로 돌리는 하이퍼파라미터 스윕에 잘 맞는다.
엔비디아 아이작 랩은 아이작 심(Isaac Sim) 위에 구축된 오픈소스 로봇 학습 프레임워크로, GPU 병렬 시뮬레이션을 통해 하나 또는 여러 GPU에서 수천 개의 로봇 인스턴스를 동시에 돌린다. 이번 예제의 샘플 과제는 Isaac-Velocity-Rough-H1-v0로, 유니트리 H1 휴머노이드 로봇이 절차적으로 생성된 울퉁불퉁한 지형을 걸으며 속도 명령을 추종하도록 학습한다. 로봇은 19개 관절을 조율해 균형을 유지해야 한다.
훈련에는 아이작 랩이 지원하는 강화학습 프레임워크 중 하나인 skrl을 통해 PPO(근접 정책 최적화)가 사용된다. 다중 노드로 확장하면 병렬 환경 수가 늘어 정책 업데이트당 더 다양한 경험이 생성되고 수렴이 빨라진다. 솔루션은 두 백엔드에서 동일하게 동작하는 단일 도커 이미지와, 공유 설정 파일에서 쿠버네티스 매니페스트와 세이지메이커 실행 스크립트를 렌더링하는 제너레이터 스크립트로 구성된다.
훈련 컨테이너 이미지는 isaac-sim 5.1.0을 기반으로 아이작 랩 v2.3.2를 설치해 빌드하며, 두 서비스 옵션 모두 같은 이미지를 사용한다. 두 경로 모두 동일한 torchrun 호출로 끝나고, 환경이 컨테이너에 토폴로지를 주입하는 방식만 다르다. 훈련 지표는 옵션에 따라 세이지메이커 관리형 MLflow로 전송돼 양쪽 백엔드에서 검색 가능한 실험 추적을 제공한다. 기존 EC2와 AWS 배치로 같은 H1 과제를 돌리던 워크숍을 세이지메이커로 옮기면 훈련 코드를 바꾸지 않고도 관리형 클러스터와 통합 장애 복구, 서버리스 실행을 더할 수 있으며, 전체 코드는 깃허브 저장소에 공개돼 있다.