AWS, 추측 디코딩 병렬화한 'P-EAGLE'로 LLM 추론 최대 1.69배 가속
AWS가 대규모 언어모델(LLM) 추론을 빠르게 하는 '추측 디코딩(speculative decoding)'의 초안 생성 단계를 병렬화한 새 기법 '병렬 EAGLE(P-EAGLE)'를 개발해 오픈소스로 공개했다. 동시에 아마존 세이지메이커 점프스타트에서 이를 기본 지원한다고 밝혔다.
추측 디코딩은 가벼운 초안 모델이 다음 토큰들을 미리 추측하면 목표 LLM이 이를 한 번의 순방향 연산으로 검증하는 방식으로, 추론 처리량을 높이고 지연을 줄인다. 대표 프레임워크 EAGLE은 큰 속도 향상을 이뤘지만 초안 토큰을 자기회귀적으로 만들어, K개의 후보를 내려면 초안 헤드를 K번 순차로 거쳐야 하는 한계가 있었다.
이 때문에 더 깊이 추측할수록 초안 생성 비용이 선형으로 늘어 성능 이득을 깎아먹었다. 최신판인 EAGLE-3은 특징 대신 토큰을 직접 예측하고 목표 모델의 여러 층 표현을 결합해 정확도를 높였지만, 순차적으로 초안을 만든다는 근본 제약은 그대로 남아 있었다.
P-EAGLE은 중첩된 순차 초안 단계를 완전히 없애고 모든 초안 토큰을 한 번의 순방향 연산으로 동시에 예측한다. 예컨대 목표 모델이 'Paris'를 생성하면 EAGLE은 다음 네 토큰을 위해 초안 패스를 네 번 거쳐야 하지만, P-EAGLE은 학습 가능한 자리표시자로 빈 위치를 채워 네 토큰을 한꺼번에 예측한다.
초안 토큰 수를 순차 연산 횟수에서 분리한 덕분에 지연을 늘리지 않고도 더 깊이 추측할 수 있다. AWS는 고성능 하드웨어 기반 실제 벤치마크에서 P-EAGLE이 기존 EAGLE 대비 처리량을 최대 1.69배 끌어올렸다고 밝혔다.
벤치마크는 엔비디아 B200 GPU에서 FP8 양자화를 적용한 Qwen3-Coder-30B-A3B-Instruct 모델로 초당 출력 토큰 수(OTPS)를 측정했다. 휴먼이밸(HumanEval) 기준 동시성 1에서 P-EAGLE은 초당 최대 1,167토큰을 내, 추측을 쓰지 않는 기본 추론(294토큰)의 약 4배에 달했다.
세이지메이커 점프스타트는 사전학습된 P-EAGLE 헤드를 갖춘 네 가지 모델을 출시 시점에 제공한다. GPT-OSS-120B, GPT-OSS-20B, Qwen3-Coder-30B-A3B-Instruct, Gemma-4-31B-IT으로, 모델 허브에서 한 번의 클릭으로 배포할 수 있다.
별도의 초안 모델 학습이나 맞춤형 컨테이너, 복잡한 vLLM 설정 없이 배포가 가능하며, 배포 구성의 환경 변수에서 P-EAGLE 추측 설정이 미리 채워진다. AWS는 P-EAGLE을 EAGLE-3 구조를 병렬 초안 방식으로 확장한 것으로, 별도의 CUDA 커널이나 분산 서빙 설정을 직접 다루지 않고도 EAGLE-3보다 최대 1.69배 빠른 추론 엔드포인트를 띄울 수 있다고 설명했다.