AWS, NVIDIA RTX PRO 6000 Blackwell 기반 G7e 인스턴스 SageMaker AI 출시… 추론 비용 2.6배 절감
AWS가 NVIDIA RTX PRO 6000 Blackwell Server Edition GPU를 탑재한 'G7e 인스턴스'를 Amazon SageMaker AI에서 이용할 수 있게 됐다고 발표했다. 생성형 AI 수요가 늘어나는 가운데, 더 유연하고 비용 효율적이면서도 강력한 성능을 요구하는 개발자·기업 수요를 겨냥한 신규 GPU 인스턴스다.
G7e는 RTX PRO 6000 GPU를 1개, 2개, 4개, 8개 단위로 구성해 노드를 프로비저닝할 수 있으며, GPU 한 개당 96GB의 GDDR7 메모리를 제공한다. 단일 노드 G7e.2xlarge 인스턴스만으로도 GPT-OSS-120B, Nemotron-3-Super-120B-A12B(NVFP4 변형), Qwen3.5-35B-A3B와 같은 대형 오픈소스 파운데이션 모델을 호스팅할 수 있다.
FP16 정밀도 기준으로 G7e.2xlarge(1GPU)에서는 35B 파라미터 모델, G7e.24xlarge(4GPU)에서는 150B 모델, G7e.48xlarge(8GPU)에서는 300B 파라미터 모델까지 배포가 가능하다. 또한 최대 1,600Gbps 네트워킹 처리량과 G7e.48xlarge 기준 총 768GB GPU 메모리를 지원한다.
성능 측면에서 G7e는 이전 세대 G6e 대비 최대 2.3배의 추론 성능을 제공한다. GPU당 메모리 대역폭은 1,597GB/s로 G6e 대비 두 배, G5 대비 네 배 수준이며, 최대 EFA 네트워킹은 1,600Gbps로 G6e의 4배, G5의 16배로 확장돼 다중 노드 추론·파인튜닝 시나리오의 제약을 완화한다.
G7e는 5세대 텐서 코어를 활용한 FP4 정밀도, NVIDIA GPUDirect RDMA over EFAv4 등 최신 Blackwell 세대 기능을 지원한다. AWS는 이러한 특성이 LLM, 멀티모달 AI, 에이전틱 추론 워크로드 배포에 적합하다고 설명했다.
세대 간 개선을 정량화하기 위해 AWS는 Qwen3-32B(BF16) 모델로 G6e와 G7e를 벤치마킹했다. 요청당 입력 약 1,000 토큰, 출력 약 560 토큰 조건에서 prefix caching이 활성화된 vLLM 컨테이너를 사용했으며, 기준 인스턴스는 ml.g6e.12xlarge(4x L40S, 시간당 $13.12), 비교 대상은 ml.g7e.2xlarge(1x RTX PRO 6000 Blackwell, 시간당 $4.20)였다.
동시성 32(C=32) 조건에서 G7e는 100만 출력 토큰당 $0.79의 비용을 기록했다. 같은 조건에서 G6e는 $2.06로 측정돼, G7e가 약 2.6배의 비용 절감 효과를 보인 셈이다. AWS는 이 차이가 G7e의 낮은 시간당 단가와, 부하가 증가해도 처리량을 일정하게 유지하는 능력에서 비롯된다고 분석했다.
지연 시간 스케일링에서도 G7e는 더 완만한 곡선을 보였다. 동시성 1에서 32로 증가할 때 G7e의 지연은 27.2초에서 33.2초로 22% 늘어난 반면, G6e는 16.1초에서 26.0초로 62% 증가했다. AWS는 GPU 간 동기화, 올리듀스(all-reduce) 연산, KV 캐시 단편화, NVLink 통신 병목 등의 부담이 단일 GPU 구성에서 사라지기 때문이라고 설명했다.