AWS Trainium에서 추측 디코딩으로 LLM 추론 속도 최대 3배 향상… Qwen3 벤치마크 공개
AWS가 자사 AI 칩 Trainium에서 추측 디코딩(Speculative Decoding)을 활용해 LLM 토큰 생성 속도를 최대 3배까지 가속하는 실용적 벤치마크 결과를 공개했다. 디코드 비중이 높은 워크로드에서 출력 토큰당 비용을 절감하고 처리량을 개선할 수 있는 방법이다.
추측 디코딩은 소형 드래프트 모델이 여러 후보 토큰을 한 번에 제안하고, 대형 타깃 모델이 이를 단일 포워드 패스로 검증하는 방식이다. 순차적 디코드 단계를 줄여 지연 시간을 낮추고 하드웨어 활용률을 높인다.
AWS 팀은 Qwen3-0.6B와 Qwen3-1.7B를 드래프트 모델로, Qwen3-32B를 타깃 모델로 비교 실험했다. Qwen3-0.6B는 실행 속도가 빨랐지만 수락률이 약 60% 낮아 연산 절감 효과를 상쇄했다. Qwen3-1.7B가 속도와 수락률 사이에서 최적의 균형을 보였다.
추측 토큰 수(num_speculative_tokens)는 5에서 15 사이를 평가했다. 5개로 설정하면 속도 향상이 제한적이었고, 15개는 조기 거부(early rejection)가 증가해 오히려 성능이 저하됐다. 구조화된 프롬프트와 자연어 프롬프트 모두를 테스트한 결과, Qwen3-1.7B 드래프트 모델에 7개 추측 토큰 조합이 최적이었다.
AWS Neuron SDK의 NeuronX Distributed Inference(NxDI)는 Trainium에서 4가지 추측 디코딩 모드를 지원한다. 바닐라 방식(별도 컴파일), 퓨즈드 방식(통합 컴파일), EAGLE 방식(타깃 모델의 히든 스테이트 활용), Medusa 방식(병렬 예측 헤드)이다. 이번 벤치마크에서는 퓨즈드 방식을 사용했다.
실험 환경은 Trn2(trn2.48xlarge) 인스턴스에 vLLM 추론 서비스를 Amazon EKS 클러스터에 배포해 구성했다. 기준 서비스와 추측 디코딩 서비스를 동일한 하드웨어 구성에서 운영하며, 유일한 차이는 드래프트 모델 추가 여부였다.
성능 비교를 위해 LLMPerf 도구로 동일한 트래픽 패턴을 양쪽 엔드포인트에 전송하고, CloudWatch를 통해 첫 토큰 생성 시간(TTFT), 토큰 간 지연 시간, 종단 간 지연 시간을 측정했다. 반복 시퀀스, 숫자 연속, 간단한 코드 패턴부터 개방형 자연어까지 다양한 테스트 케이스를 다뤘다.
이번 결과는 AI 작문 보조, 코딩 에이전트 등 출력 토큰이 입력보다 많은 디코드 중심 워크로드를 운영하는 조직에 실질적인 비용 절감 방안을 제시한다. 드래프트 모델 선택과 추측 토큰 수 튜닝이 핵심 변수이며, 워크로드 특성에 따라 최적값이 달라질 수 있다.