AWS, 파운데이션 모델 인프라 빌딩블록 시리즈 공개… P6-B300·EFAv4까지
AWS가 Hugging Face Blog에 파운데이션 모델 훈련·추론 인프라를 다루는 기술 시리즈의 도입 글을 공개했다. 시리즈는 하드웨어 인프라 위에 리소스 오케스트레이션, ML 프레임워크, 관측성이 차곡차곡 쌓이는 4계층 아키텍처를 따라 진행된다.
도입 글은 사전훈련·사후훈련·추론이 공통적으로 요구하는 세 가지 빌딩블록으로 가속 컴퓨트, 고대역 저지연 네트워크, 분산 저장소를 꼽았다. 모델이 커질수록 단계 시간이 원시 연산보다 collective 통신과 메모리 이동에 좌우되며, scale-up·scale-out 대역폭을 명시적으로 계산해야 한다고 강조했다.
가속 컴퓨트는 EC2 P 인스턴스 패밀리를 축으로 정리됐다. P5 패밀리는 H100 GPU 1장(p5.4xlarge)과 8장(p5.48xlarge)을, p5e.48xlarge와 p5en.48xlarge는 H200 8장을 탑재한다. P6 패밀리는 NVIDIA Blackwell B200(p6-b200.48xlarge)과 Blackwell Ultra B300(p6-b300.48xlarge)을 도입한다.
GPU별 사양은 SXM/HGX 기준으로 H100과 H200이 BF16/FP16 dense 0.9895 PFLOPS, FP8 1.979 PFLOPS를 낸다. B200은 BF16/FP16 2.25 PFLOPS, FP8 4.5 PFLOPS, FP4 9 PFLOPS이며, B300은 FP4 dense에서 13.5 PFLOPS에 이른다. HBM 용량은 H100 80GB HBM3, H200 141GB HBM3e, B200 180GB HBM3e, B300 288GB HBM3e이고, HBM 대역폭은 H100 3.35 TB/s, H200 4.8 TB/s, B200·B300 8 TB/s다.
노드 내부 scale-up은 NVLink·NVSwitch로 묶인다. P5·P5e·P5en은 4세대 NVLink로 노드 합산 7.2 TB/s, P6 시리즈는 5세대 NVLink로 14.4 TB/s 대역폭을 제공한다. p5.48xlarge·p5e.48xlarge는 EFA v2 400 GB/s, p5en.48xlarge는 EFAv3 400 GB/s, p6-b200.48xlarge는 EFAv4 400 GB/s, p6-b300.48xlarge는 EFAv4 800 GB/s 집계 대역폭을 갖는다.
외부 scale-out에는 Elastic Fabric Adapter(EFA)가 쓰인다. EFA는 Libfabric API와 Scalable Reliable Datagram(SRD) 프로토콜을 통해 커널을 우회하는 RDMA를 제공하며, AWS는 이를 EC2 UltraClusters의 빌딩블록으로 활용해 수천 인스턴스 규모의 collective 통신을 묶는다. EFAv3는 EFAv2 대비 패킷 지연을 약 35% 줄였고, EFAv4는 EFAv3 대비 collective 통신 성능을 18% 더 끌어올렸다고 글은 밝혔다.
분산 학습은 코퍼스 스트리밍과 다 테라바이트 단위 체크포인트 기록을, 대규모 추론은 가중치 스테이징과 KV 캐시 증가 관리를 동시에 요구한다. 이를 위한 저장소 계층은 핫 데이터용 로컬 NVMe SSD, 고처리량 공유 접근을 위한 Lustre, 영속성을 위한 Amazon S3로 구성된다.
도입 글은 OSS 스택과의 통합 지점을 함께 정리한다. 리소스 관리는 Slurm·Kubernetes, 모델 개발·분산 학습은 PyTorch·JAX, 관측성은 메트릭 수집의 Prometheus와 시각화·알람의 Grafana로 묶이며, 후속 글에서는 각 레이어를 더 깊이 다룬다고 예고했다.