목록으로
뉴스2026년 4월 16일 PM 09:10

z-lab의 DFlash, 추측 디코딩용 블록 디퓨전 모델 오픈소스… vLLM·SGLang·MLX 지원

z-lab이 추측 디코딩(speculative decoding)을 위한 경량 블록 디퓨전 모델 DFlash를 공개했다. 효율적이면서 고품질의 병렬 드래프팅(parallel drafting)을 가능하게 하는 것이 핵심이다. 다양한 베이스 모델에 대응하는 사전 학습된 드래프트 모델이 함께 배포된다.

현재 지원되는 모델은 Kimi-K2.5(Preview), Qwen3.5-4B/9B/27B/35B-A3B, Qwen3-Coder-Next, Qwen3-Coder-30B-A3B, gpt-oss-20b, gpt-oss-120b, Qwen3-4B/8B(non-thinking, b16), Llama-3.1-8B-Instruct(UltraChat 버전)다. Qwen3.5-122B-A10B, Qwen3.5-397B-A17B, GLM-5.1은 곧 공개될 예정이다.

z-lab은 추가 모델 지원 요청을 GitHub 이슈로 받고 있으며, 학습 레시피도 곧 오픈소스로 공개해 사용자가 자체 DFlash 드래프트 모델을 학습해 어떤 LLM이든 가속할 수 있도록 할 계획이라고 밝혔다.

백엔드는 Transformers, SGLang, vLLM, MLX(Apple Silicon)를 지원한다. 각 백엔드는 별도 가상 환경 사용을 권장하며, vLLM은 야간 빌드(--extra-index-url https://wheels.vllm.ai/nightly)가 필요하다. 실제 배포 예시로 vllm serve 명령에 --speculative-config로 method를 dflash로 지정하고 num_speculative_tokens 15를 설정해 Qwen3.5-27B를 서빙하는 방법이 제시된다.

SGLang에서는 SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 환경 변수와 함께 launch_server에 --speculative-algorithm DFLASH, --speculative-num-draft-tokens 16을 지정해 Qwen3.5-35B-A3B 같은 모델을 가속할 수 있다. SGLANG_ENABLE_SPEC_V2와 SGLANG_ENABLE_DFLASH_SPEC_V2 같은 실험적 스케줄 오버랩 옵션도 제공된다.

Transformers 백엔드는 Qwen3와 LLaMA-3.1 모델만 지원한다. AutoModel.from_pretrained로 드래프트 모델을 로드하고 AutoModelForCausalLM으로 타깃 모델을 로드한 뒤 draft.spec_generate(input_ids, target=target, ...)로 추측 디코딩을 실행할 수 있다. MLX 구현체는 Apple M5 Pro에서 Qwen3·Qwen3.5 모델로 테스트되었으며, dflash.model_mlx의 stream_generate 함수로 토큰 처리량을 측정할 수 있다.

벤치마크는 모든 백엔드가 gsm8k, math500, humaneval, mbpp, mt-bench 데이터셋을 공유한다. 데이터셋은 첫 실행 시 cache/ 디렉터리에 JSONL 형식으로 자동 다운로드되어 캐싱된다. 각 백엔드별로 dflash.benchmark 모듈을 호출하는 명령이 README에 정리되어 있다.

z-lab은 SGLang 통합에 기여한 @dcw02, @gongy와 modal-labs 팀, vLLM 통합을 담당한 NVIDIA의 @benchislett에게 감사를 표했다. 인용 정보는 Chen, Liang, Liu의 2026년 arXiv 논문 "DFlash: Block Diffusion for Flash Speculative Decoding"(arXiv:2602.06036)으로 안내된다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사