엔비디아, 디퓨전 언어모델 Nemotron-Labs Diffusion 3B/8B/14B 공개
엔비디아가 텍스트 토큰을 병렬로 생성하고 다듬는 디퓨전 언어모델 패밀리 'Nemotron-Labs Diffusion'을 공개했다. 텍스트 모델은 3B·8B·14B 세 가지 규모로 나오고, 별도로 8B 비전-언어 모델(VLM)도 함께 공개됐다. 베이스 모델과 인스트럭션 튜닝 챗 변형이 모두 포함된다.
기존 대형 언어모델은 대부분 한 번에 한 토큰씩, 직전 토큰에 의존해 생성하는 자기회귀(AR) 방식을 쓴다. 학습이 안정적이지만 토큰마다 모델 전체를 GPU 메모리에서 다시 불러와야 해, 지연 시간에 민감한 애플리케이션이나 작은 배치 크기에서는 GPU가 계산보다 메모리 작업에 시간을 더 쓰게 된다. 또 한 번 생성된 토큰은 되돌릴 수 없어 초기 실수가 뒤로 전파되기 쉽다.
Nemotron-Labs Diffusion은 자기회귀와 디퓨전을 별개의 모델 계열로 분리하지 않고, 한 모델 안에서 세 가지 생성 모드를 켤 수 있게 했다. ar_mode=true 옵션을 켜면 일반적인 좌→우 AR 모델처럼 동작한다. 디퓨전 모드(FastDiffuser)는 32토큰 블록을 한 번에 채우고 신뢰도 임계값에 따라 토큰을 단계별로 확정한다. 셀프-스펙큘레이션(LinearSpec) 모드는 디퓨전으로 후보 토큰을 양방향으로 초안한 뒤 AR로 다시 검증해 일치하는 접두부만 확정한다.
정확도에서 Nemotron-Labs Diffusion 8B는 Qwen3 8B 대비 평균 정확도 1.2%를 기록했다. 디코딩 효율의 하드웨어 중립 지표인 '포워드 패스당 토큰 수(TPF)'로 보면 디퓨전 모드가 AR 대비 2.6배, 선형 셀프-스펙큘레이션은 6배, 2차 셀프-스펙큘레이션은 6.4배까지 끌어올렸다.
엔비디아가 자체 측정한 B200 GPU의 speedbench 결과로는 LinearSpec 모드가 약 865 tok/s를 기록해, 같은 하드웨어의 AR 베이스라인 대비 약 4배 빠르다. 온도 0에서 LinearSpec의 출력은 AR과 동일한 무손실(lossless)이라고 엔비디아는 명시했다.
모델은 NVIDIA Nemotron 사전학습 데이터셋의 1.3T 토큰으로 학습됐고, Nemotron 후처리 데이터셋 45B 토큰으로 지도형 미세조정을 거쳤다. 학습은 AR과 디퓨전 두 가지 손실을 동시에 사용하는 합동 목표로 진행해, 기존 AR 학습으로 얻은 능력은 유지한 채 병렬 초안 능력을 더했다.
기술적으로는 사전학습된 AR 모델을 디퓨전 모델로 전환하는 'Efficient-DLM' 접근을 따랐다. 어텐션 메커니즘을 블록 단위로 바꾼 뒤 추가 사전학습을 돌리는 방식으로, KV 캐시와의 호환성을 유지하면서 병렬 디코딩을 가능케 한다.
라이선스는 텍스트 모델은 상업 활용이 허용되는 NVIDIA Nemotron Open Model License, 8B VLM은 연구 유연성을 강조한 NVIDIA Source Code License로 배포된다. 학습 코드는 NVIDIA Megatron Bridge 프레임워크를 통해 공개됐다.
추론 배포는 SGLang 메인 브랜치에 곧 병합될 예정이고, 현재는 GitHub 이슈 트래커를 통한 초기 지원으로 사용할 수 있다.