연구2026년 5월 7일 AM 02:06

구글, Gemma 4용 'Multi-Token Prediction' 드래프터 공개… 추측 디코딩으로 로컬 AI 토큰 생성 최대 3배 가속, E2B 드래프터 7,400만 파라미터·Apache 2.0 전환

구글이 올봄 공개한 오픈 모델 Gemma 4에 'Multi-Token Prediction(MTP)' 드래프터를 추가했다. 이 실험적 모델은 추측 디코딩(speculative decoding)을 활용해 미래 토큰을 미리 예측, 모델이 토큰을 차례차례 생성할 때보다 출력 속도를 끌어올린다. 구글은 MTP가 Gemma의 토큰 생성 속도를 최대 3배까지 가속할 수 있다고 밝혔다.

최신 Gemma 모델은 구글의 프런티어 AI Gemini와 동일한 기반 기술 위에 만들어졌지만, 로컬 실행에 맞게 튜닝됐다. Gemini는 구글 자체 TPU 칩에서 구동되도록 최적화돼 있고, 초고속 인터커넥트와 메모리를 갖춘 대규모 클러스터에서 운영된다. 가장 큰 Gemma 4 모델은 고성능 AI 가속기 한 장에서 풀 프리시전(full precision)으로 구동할 수 있으며, 양자화하면 소비자용 GPU에서도 돌릴 수 있다.

Gemma는 사용자가 클라우드 AI 시스템에 데이터를 모두 넘기지 않고 자신의 하드웨어에서 AI를 직접 다룰 수 있게 해 준다. 구글은 또한 Gemma 4의 라이선스를 이전 버전의 자체 Gemma 라이선스보다 훨씬 허용 범위가 넓은 Apache 2.0으로 변경했다. 다만 일반 사용자가 로컬에서 AI 모델을 구동할 때는 하드웨어상의 본질적 제약이 따르는데, 이 지점에서 MTP가 등장한다.

Gemma나 Gemini와 같은 LLM은 자기회귀(autoregressive) 방식으로 토큰을 생성한다. 즉, 직전 토큰을 바탕으로 한 번에 하나씩 출력한다. 출력 속에서 의미 없는 채움 단어든 복잡한 추론에서 핵심이 되는 토큰이든 관계없이, 매 토큰마다 동일한 양의 연산이 소요된다.

직접 돌리는 AI의 문제는 일반 시스템 메모리가 엔터프라이즈 하드웨어의 고대역폭 메모리(HBM)에 비해 빠르지 않다는 점이다. 그 결과 프로세서는 매 토큰마다 VRAM에서 연산 유닛으로 파라미터를 옮기는 데 많은 시간을 쓰고, 그 사이 연산 사이클은 놀게 된다.

MTP는 이 유휴 시간을 활용해 무거운 메인 모델을 우회하고, 가벼운 드래프터로 추측 토큰을 만들어 낸다. 드래프트 모델은 Gemma 4 E2B의 경우 7,400만 파라미터에 불과할 정도로 작지만, 추측 토큰 생성을 빠르게 하기 위한 여러 최적화가 함께 들어가 있다. 예컨대 드래프터는 키-값(KV) 캐시 — LLM의 활성 메모리 — 를 공유해 메인 모델이 이미 처리한 문맥을 다시 계산할 필요가 없다. E2B와 E4B 드래프터는 또한 가능성이 높은 토큰 클러스터를 좁히는 희소 디코딩(sparse decoding) 기법도 사용한다.

구글, Gemma 4용 'Multi-Token Prediction' 드래프터 공개… 추측 디코딩으로 로컬 AI 토큰 생성 최대 3배 가속, E2B 드래프터 7,400만 파라미터·Apache 2.0 전환

관련 기사