구글 딥마인드, 텍스트 생성 4배 빠른 확산 모델 '디퓨전젬마' 공개
구글 딥마인드가 텍스트를 기존 대형언어모델(LLM)보다 최대 4배 빠르게 생성하는 실험적 오픈 모델 '디퓨전젬마(DiffusionGemma)'를 공개했다. 아파치 2.0 라이선스로 풀린 이 모델은 26B 규모의 전문가 혼합(MoE) 구조를 채택했다.
대다수 LLM은 토큰을 왼쪽에서 오른쪽으로 한 번에 하나씩 순차적으로 만들어낸다. 반면 디퓨전젬마는 한 번의 순전파에서 256개 토큰을 동시에 생성하며, 텍스트 블록 전체를 한꺼번에 찍어내는 방식으로 작동한다.
이 모델은 젬마 4 계열과 제미나이 디퓨전 연구를 토대로 만들어졌으며, 생성 속도를 극대화하도록 설계된 새로운 '디퓨전 헤드'를 결합했다. 26B 가운데 추론 시 실제로 활성화되는 파라미터는 3.8B로, 양자화하면 고성능 소비자용 GPU의 18GB VRAM 안에서 구동된다.
속도 면에서 디퓨전젬마는 엔비디아 H100 한 장에서 초당 1,000개 이상, 지포스 RTX 5090에서 초당 700개 이상의 토큰을 생성한다. 단일 사용자가 로컬에서 모델을 돌릴 때 흔히 생기는 지연 병목을 메모리 대역폭 문제에서 연산 문제로 옮긴 결과다.
텍스트 확산은 이미지 생성 AI와 비슷하게 작동한다. 무작위 자리표시 토큰으로 채운 캔버스에서 출발해 여러 번의 패스를 거치며 올바른 토큰을 확정하고, 이를 단서 삼아 나머지를 다듬는다. 텍스트는 점차 고품질 출력으로 수렴한다.
256개 토큰을 병렬로 만들면서 모든 토큰이 서로를 참조하는 양방향 어텐션 덕분에, 인라인 편집이나 코드 채워넣기, 아미노산 서열, 수학 그래프처럼 비선형 구조를 다루는 작업에서 강점을 보인다. 모델이 출력 전체를 한 번에 평가해 실시간으로 오류를 바로잡는 자기 교정도 가능하다.
다만 속도와 병렬 배치 생성을 우선한 탓에 전체 출력 품질은 표준 젬마 4보다 낮다. 구글 딥마인드는 최고 품질이 필요한 작업에는 기존 자기회귀 방식의 젬마 4를 그대로 쓰라고 권했다. 한 예로 언슬로스(Unsloth)는 디퓨전젬마를 미세조정해 자기회귀 모델이 어려워하는 스도쿠 풀이를 시켰다.
속도 이점은 로컬·저동시성 추론에 맞춰져 있다. 수많은 요청을 한데 묶어 처리하는 고QPS 클라우드 환경에서는 자기회귀 모델이 연산을 효율적으로 채우기 때문에, 병렬 디코딩의 이점이 줄고 오히려 서빙 비용이 높아질 수 있다.
모델 가중치는 허깅페이스에서 내려받을 수 있고 MLX와 vLLM, 허깅페이스 트랜스포머스에서 구동된다. 미세조정은 언슬로스와 엔비디아 네모(NeMo)로 지원되며 라마.cpp 지원도 곧 추가된다. 구글 딥마인드는 엔비디아와 협력해 RTX 5090·4090용 양자화와 호퍼·블랙웰의 NVFP4 커널 최적화를 적용했다.