목록으로
제품2026년 5월 8일 AM 02:05

AWS, 단기 GPU 확보 가이드 공개… 'EC2 Capacity Blocks for ML' 40~50% 할인·블록당 64대·8주 사전 예약, 'SageMaker training plans' 70~75% 할인

AWS가 머신러닝 워크로드를 위한 단기 GPU 용량 확보 방법을 정리한 가이드를 AWS Machine Learning Blog에 공개했다. GPU 수요가 업계 공급을 추월하면서 안정적 GPU 컴퓨트 확보가 ML 고객의 과제로 떠오른 가운데, AWS는 'Amazon EC2 Capacity Blocks for ML'과 'Amazon SageMaker training plans'를 두 축으로 제시했다.

단기 워크로드 시나리오로는 부하 테스트(load testing), 모델 검증(model validation), 시간이 정해진 워크숍, 출시 전 추론 용량 준비가 명시됐다. 기존 ODCR(on-demand capacity reservation)은 사용 패턴이 명확한 정상 상태(steady-state) 워크로드에 적합하지만, P 계열 GPU 인스턴스에서는 단기 가용성이 제한적이고 장기 계약이 없으면 온디맨드 요금이 그대로 청구된다는 점이 한계로 지적됐다.

'EC2 Capacity Blocks for ML'은 정해진 시간 창 동안 GPU 용량을 예약하는 방식으로, 온디맨드 대비 40~50% 할인된 요금을 제공한다. 시작 시간은 최대 8주 전에 예약할 수 있고, 기간은 1~14일(1일 단위) 또는 15~182일(7일 단위) 범위에서 선택할 수 있다. 단일 Capacity Block당 최대 64개 인스턴스를 구성할 수 있다.

AWS Organizations의 다중 계정 환경에서는 여러 Capacity Block을 동시에 운영해 같은 날짜에 최대 256개 인스턴스까지 확보할 수 있다. 256개 한도에 도달하려면 최소 4개 블록이 필요하며, 블록은 동시에 실행될 수 있다. 조직이 구매한 Capacity Block은 추가 비용 없이 여러 계정에서 공유 사용이 가능하다.

하드웨어 장애 시 사용자는 영향받은 인스턴스를 종료하고 같은 Capacity Blocks 예약 안에서 수동으로 재기동할 수 있다. 시스템은 약 10분의 정리 시간 후 예약 슬롯을 되돌려준다고 AWS는 명시했다. 다만 Capacity Blocks는 P5, Trn1, Trn2 등 일부 EC2 인스턴스 패밀리만 지원하며, ml.p4dn·ml.p5 같은 SageMaker 관리형 인스턴스 타입은 예약할 수 없다는 제약이 있다.

또 다른 옵션인 'SageMaker training plans'는 SageMaker AI 관리형 환경에서 학습 잡, SageMaker HyperPod 클러스터, 추론 등을 위해 GPU 용량을 예약한다. 가격은 온디맨드 대비 70~75% 낮은 수준으로 책정되며, 예약 시점에 일괄 선납하는 구조다. 다만 G 계열(G6 제외) 인스턴스는 현재 지원되지 않으며, G6 인스턴스가 필요하다면 AWS 계정 팀에 문의하도록 안내됐다.

비용 비교 예시로는 미국 동부(버지니아 북부) 리전의 p5.48xlarge 인스턴스가 제시됐다. Capacity Blocks 적용 시 시간당 $34.608, 온디맨드는 $55.04다. AWS는 가격이 수급 동향에 따라 정기적으로 갱신되지만 예약 시점의 요금이 적용되며 이후 가격 변동의 영향을 받지 않는다고 설명했다.

단기 옵션으로는 온디맨드 인스턴스와 스팟(Spot) 인스턴스도 함께 거론됐다. 스팟은 최대 90%까지 비용을 절감할 수 있지만, AWS가 용량을 회수할 수 있어 중단을 견딜 수 있는 워크로드에만 적합하다. 체크포인트가 가능한 분산 학습, 재시도 가능한 배치 추론, 부분 용량을 견디도록 설계된 워크숍 환경 등이 권장 사례로 언급됐다.

AWS는 단기 GPU 전략을 가용성, 비용 모델, 워크로드 환경(EC2 직접 접근 대 SageMaker 관리형) 세 축으로 평가하라고 권고했다. 운영 단계 배포나 대규모 GPU 수요가 예상되는 이벤트성 워크로드는 최소 3주 전부터 AWS 계정 팀과 함께 용량 계획을 세울 것을 조언했다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사