목록으로
제품2026년 4월 21일 AM 06:06

AWS, SageMaker AI에 G7e 인스턴스 출시… NVIDIA RTX PRO 6000 Blackwell로 G6e 대비 추론 2.3배·토큰당 비용 2.6배 절감

아마존웹서비스(AWS)가 생성형 AI 추론 워크로드용으로 Amazon SageMaker AI에서 G7e 인스턴스를 사용할 수 있다고 발표했다. G7e는 NVIDIA RTX PRO 6000 Blackwell Server Edition GPU를 탑재했으며, GPU당 96GB GDDR7 메모리를 제공한다.

인스턴스는 1·2·4·8 GPU 노드로 구성할 수 있다. 가장 작은 단일 노드 G7e.2xlarge만으로도 GPT-OSS-120B, Nemotron-3-Super-120B-A12B(NVFP4 변형), Qwen3.5-35B-A3B 등 오픈소스 파운데이션 모델을 호스팅할 수 있다.

GPU당 메모리는 G6e 대비 2배로 확대됐다. FP16 기준 단일 GPU 노드(G7e.2xlarge)에 35B 파라미터 모델, 4 GPU 노드(G7e.24xlarge)에 150B 모델, 8 GPU 노드(G7e.48xlarge)에 300B 모델 배포가 가능하다. 최대 네트워킹 처리량은 1,600 Gbps, G7e.48xlarge의 총 GPU 메모리는 768GB에 달한다.

AWS는 G7e가 이전 세대 G6e 대비 추론 성능을 최대 2.3배까지 높였다고 설명했다. GPU당 대역폭은 1,597 GB/s이며, GPU당 메모리는 G6e의 두 배이자 G5의 네 배다. 최대 규격 G7e의 EFA 네트워킹 1,600 Gbps는 G6e 대비 4배, G5 대비 16배 수준이다.

8-GPU 계층 사양을 보면, G5(g5.48xlarge)는 NVIDIA A10G GPU 8장에 총 192GB GDDR6 메모리, 600 GB/s 대역폭, 192 vCPU, 768 GiB 시스템 메모리, 100 Gbps 네트워크, 7.6 TB 로컬 NVMe를 제공한다. G6e(g6e.48xlarge)는 L40S GPU 8장, 총 384GB GDDR6, 864 GB/s, 192 vCPU, 1,536 GiB 시스템 메모리, 400 Gbps, 7.6 TB NVMe 구성이다. G7e(g7e.48xlarge)는 RTX PRO 6000 Blackwell GPU 8장, 총 768GB GDDR7, 1,597 GB/s, 192 vCPU, 2,048 GiB 시스템 메모리, 1,600 Gbps EFA, 15.2 TB NVMe를 탑재한다.

AWS는 Qwen3-32B(BF16) 모델로 성능을 비교했다. 요청당 입력 약 1,000 토큰, 출력 약 560 토큰 워크로드에서 네이티브 vLLM 컨테이너에 prefix caching을 켠 상태로 측정했다. 대상은 ml.g6e.12xlarge(4x L40S, 시간당 13.12달러)와 ml.g7e.2xlarge(1x RTX PRO 6000 Blackwell, 시간당 4.20달러)다.

프로덕션 동시성(C=32) 기준 G7e는 100만 출력 토큰당 0.79달러를 기록했다. G6e의 2.06달러 대비 약 2.6배 비용 절감이다. AWS는 낮은 시간당 단가와 부하 하에서도 일정한 처리량 유지가 결정적이라고 설명했다.

지연 시간도 더 안정적이다. G7e는 C=1에서 C=32까지 p50 지연이 27.2초에서 33.2초로 22% 증가에 그쳤으나, G6e는 16.1초에서 26.0초로 62% 늘었다. AWS는 단일 GPU 아키텍처가 GPU 간 동기화 오버헤드, 트랜스포머 레이어마다 발생하는 all-reduce, GPU 간 KV 캐시 파편화, NVLink 통신 병목이 없다는 점을 이유로 꼽았다.

G7e는 5세대 Tensor Cores 기반 FP4 정밀도와 EFAv4를 통한 NVIDIA GPUDirect RDMA를 지원한다. AWS는 챗봇과 대화형 AI, 에이전틱·툴 호출 워크플로, 텍스트 생성·요약·장문 컨텍스트 추론, 이미지 생성·비전 모델, 피지컬 AI·과학 계산 등을 주요 활용 사례로 제시했다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사