'deepseek-ai/DeepSeek-V3' 깃허브 트렌딩… 671B MoE·14.8조 토큰·H800 278.8만 GPU시간 학습, FP8 혼합정밀·128K 컨텍스트
<p>깃허브 'deepseek-ai/DeepSeek-V3' 레포가 누적 스타 102,962개(당일 +60)를 기록하며 트렌딩에 올랐다. 6,710억(671B) 파라미터를 보유한 Mixture-of-Experts(MoE) 언어 모델로, 토큰당 370억(37B) 파라미터를 활성화한다.</p>
<p>아키텍처는 DeepSeek-V2에서 검증된 Multi-head Latent Attention(MLA)과 DeepSeekMoE를 그대로 채택했다. 여기에 새로 도입한 두 가지 기법으로, V3는 보조 손실(auxiliary loss) 없이 부하 균형을 맞추는 전략과 Multi-Token Prediction(MTP) 학습 목표를 사용한다. MTP는 추론 가속을 위한 추측 디코딩(speculative decoding)에도 활용 가능하다.</p>
<p>사전학습은 14.8조 개의 다양한 고품질 토큰 위에서 진행됐다. FP8 혼합 정밀(FP8 mixed precision) 학습 프레임워크를 설계해 초대규모 모델의 FP8 학습 가능성과 효율성을 처음으로 검증했다고 밝혔다. 알고리즘·프레임워크·하드웨어 공동 설계로 노드 간 MoE 학습의 통신 병목을 해소해 거의 완전한 연산-통신 중첩(computation-communication overlap)에 도달했다.</p>
<p>사전학습 비용은 H800 GPU 266.4만 시간으로 보고됐고, 사후 학습(post-training) 단계는 추가 10만 GPU 시간이 더해져 전체 학습은 278.8만 H800 GPU 시간으로 마무리됐다. 학습 과정 전반에서 회복 불가능한 손실 스파이크나 롤백이 한 번도 없었다고 명시했다.</p>
<p>사후 학습에는 DeepSeek-R1 시리즈의 긴 사고 사슬(long-CoT) 모델로부터 추론 능력을 추출하는 지식 증류(knowledge distillation) 파이프라인이 적용됐다. R1의 검증·반성 패턴을 V3에 통합해 추론 성능을 끌어올리면서도 출력 스타일과 길이는 통제했다고 설명한다. 학습 단계는 지도학습 미세조정(SFT)과 강화학습(RL)을 차례로 거친다.</p>
<p>모델 다운로드는 허깅 페이스에서 'DeepSeek-V3-Base'와 'DeepSeek-V3' 두 종으로 제공된다. 두 모델 모두 671B 총 파라미터, 37B 활성 파라미터, 128K 컨텍스트 길이를 갖는다. 허깅 페이스에 게시된 총 가중치 크기는 685B로, 671B 메인 모델 가중치와 14B MTP 모듈 가중치를 합한 값이다.</p>
<p>베이스 모델 벤치마크에서 DeepSeek-V3는 동급 오픈소스 모델 대비 우위를 보였다. MMLU 87.1, MMLU-Redux 86.2, MMLU-Pro 64.4, BBH(EM) 87.5, DROP F1 89.0, AGIEval 79.6, HumanEval 65.2, MBPP 75.4, LiveCodeBench-Base 19.4, GSM8K 89.3, MATH 61.6, CMath 90.7, C-Eval 90.1, CMMLU 88.8 등을 기록했다. Qwen2.5 72B·LLaMA3.1 405B 대비 수학·코드 영역에서 격차가 가장 컸다.</p>
<p>채팅 모델은 폐쇄형 대표 모델과 견주는 결과를 보고했다. MMLU 88.5, MMLU-Redux 89.1, MMLU-Pro 75.9, DROP(3-shot F1) 91.6, GPQA-Diamond 59.1, SimpleQA 24.9, LongBench v2 48.7, HumanEval-Mul 82.6, LiveCodeBench Pass@1 37.6, Codeforces 백분위 51.6, SWE Verified Resolved 42.0 등이 비교표에 포함됐다. 컨텍스트 128K까지 'Needle In A Haystack(NIAH)' 평가에서도 양호한 결과를 보였다.</p>
<p>로컬 실행을 위해 오픈소스 커뮤니티·하드웨어 벤더와 협업해 다양한 실행 옵션을 제공한다고 안내했다. 메인 가중치와 MTP 모듈 가중치 세부 사항은 README_WEIGHTS.md에 정리돼 있으며, MTP 지원은 커뮤니티 차원에서 활발히 개발 중이어서 기여와 피드백을 환영한다고 덧붙였다.</p>