연구2026년 4월 27일 PM 09:38

'deepseek-ai/DeepSeek-V3' 깃허브 트렌딩… 671B MoE·14.8조 토큰·H800 278.8만 GPU시간 학습, FP8 혼합정밀·128K 컨텍스트

깃허브 'deepseek-ai/DeepSeek-V3' 레포가 누적 스타 102,962개(당일 +60)를 기록하며 트렌딩에 올랐다. 6,710억(671B) 파라미터를 보유한 Mixture-of-Experts(MoE) 언어 모델로, 토큰당 370억(37B) 파라미터를 활성화한다.

아키텍처는 DeepSeek-V2에서 검증된 Multi-head Latent Attention(MLA)과 DeepSeekMoE를 그대로 채택했다. 여기에 새로 도입한 두 가지 기법으로, V3는 보조 손실(auxiliary loss) 없이 부하 균형을 맞추는 전략과 Multi-Token Prediction(MTP) 학습 목표를 사용한다. MTP는 추론 가속을 위한 추측 디코딩(speculative decoding)에도 활용 가능하다.

사전학습은 14.8조 개의 다양한 고품질 토큰 위에서 진행됐다. FP8 혼합 정밀(FP8 mixed precision) 학습 프레임워크를 설계해 초대규모 모델의 FP8 학습 가능성과 효율성을 처음으로 검증했다고 밝혔다. 알고리즘·프레임워크·하드웨어 공동 설계로 노드 간 MoE 학습의 통신 병목을 해소해 거의 완전한 연산-통신 중첩(computation-communication overlap)에 도달했다.

사전학습 비용은 H800 GPU 266.4만 시간으로 보고됐고, 사후 학습(post-training) 단계는 추가 10만 GPU 시간이 더해져 전체 학습은 278.8만 H800 GPU 시간으로 마무리됐다. 학습 과정 전반에서 회복 불가능한 손실 스파이크나 롤백이 한 번도 없었다고 명시했다.

사후 학습에는 DeepSeek-R1 시리즈의 긴 사고 사슬(long-CoT) 모델로부터 추론 능력을 추출하는 지식 증류(knowledge distillation) 파이프라인이 적용됐다. R1의 검증·반성 패턴을 V3에 통합해 추론 성능을 끌어올리면서도 출력 스타일과 길이는 통제했다고 설명한다. 학습 단계는 지도학습 미세조정(SFT)과 강화학습(RL)을 차례로 거친다.

모델 다운로드는 허깅 페이스에서 'DeepSeek-V3-Base'와 'DeepSeek-V3' 두 종으로 제공된다. 두 모델 모두 671B 총 파라미터, 37B 활성 파라미터, 128K 컨텍스트 길이를 갖는다. 허깅 페이스에 게시된 총 가중치 크기는 685B로, 671B 메인 모델 가중치와 14B MTP 모듈 가중치를 합한 값이다.

베이스 모델 벤치마크에서 DeepSeek-V3는 동급 오픈소스 모델 대비 우위를 보였다. MMLU 87.1, MMLU-Redux 86.2, MMLU-Pro 64.4, BBH(EM) 87.5, DROP F1 89.0, AGIEval 79.6, HumanEval 65.2, MBPP 75.4, LiveCodeBench-Base 19.4, GSM8K 89.3, MATH 61.6, CMath 90.7, C-Eval 90.1, CMMLU 88.8 등을 기록했다. Qwen2.5 72B·LLaMA3.1 405B 대비 수학·코드 영역에서 격차가 가장 컸다.

채팅 모델은 폐쇄형 대표 모델과 견주는 결과를 보고했다. MMLU 88.5, MMLU-Redux 89.1, MMLU-Pro 75.9, DROP(3-shot F1) 91.6, GPQA-Diamond 59.1, SimpleQA 24.9, LongBench v2 48.7, HumanEval-Mul 82.6, LiveCodeBench Pass@1 37.6, Codeforces 백분위 51.6, SWE Verified Resolved 42.0 등이 비교표에 포함됐다. 컨텍스트 128K까지 'Needle In A Haystack(NIAH)' 평가에서도 양호한 결과를 보였다.

로컬 실행을 위해 오픈소스 커뮤니티·하드웨어 벤더와 협업해 다양한 실행 옵션을 제공한다고 안내했다. 메인 가중치와 MTP 모듈 가중치 세부 사항은 README_WEIGHTS.md에 정리돼 있으며, MTP 지원은 커뮤니티 차원에서 활발히 개발 중이어서 기여와 피드백을 환영한다고 덧붙였다.

'deepseek-ai/DeepSeek-V3' 깃허브 트렌딩… 671B MoE·14.8조 토큰·H800 278.8만 GPU시간 학습, FP8 혼합정밀·128K 컨텍스트

관련 기사