허깅페이스 'DeepSeek-V4' 심층 해설… CSA·HCA 하이브리드 어텐션으로 1M 토큰 KV 캐시 2%까지 압축, 에이전트 워크로드 정조준
허깅페이스 블로그가 'DeepSeek-V4: a million-token context that agents can actually use' 게시물을 통해 V4의 아키텍처와 에이전트 특화 설계를 심층 분석했다. 1M 토큰 컨텍스트 자체가 곧 성능은 아니며, 그 깊이에서 매 포워드 패스의 비용이 관건이라는 문제의식에서 출발한다.
효율 개선의 핵심은 토큰당 추론 FLOPs와 KV 캐시 크기다. 1M 토큰에서 DeepSeek-V4-Pro는 V3.2 대비 토큰당 추론 FLOPs의 27%, KV 캐시 메모리의 10%만 사용한다. 더 작은 V4-Flash는 FLOPs 10%·KV 캐시 7%로 더 떨어진다. bfloat16 GQA(헤드 8) 대비 V4의 KV 캐시는 약 2% 수준이라고 게시물은 밝혔다.
효율은 어텐션을 두 메커니즘으로 분리해 층마다 교차 배치한 데서 나온다. Compressed Sparse Attention(CSA)은 학습된 위치 바이어스를 적용한 softmax 게이트 풀링으로 KV 항목을 시퀀스 차원에서 4배 압축한다. FP4·ReLU 스코어 멀티헤드 도트 프로덕트의 'lightning indexer'가 쿼리당 상위-k 압축 블록을 선택한다. V3.2의 DeepSeek Sparse Attention 아이디어를 이미 4배 짧아진 블록 위에서 다시 돌리는 구조다.
Heavily Compressed Attention(HCA)는 KV를 128배 압축하고 희소 선택을 제거한다. 압축 후 시퀀스가 충분히 짧아 모든 쿼리가 모든 블록에 밀집(dense) 어텐션을 수행해도 비용이 낮다. V4-Pro의 61개 레이어 스택에서 0~1번 레이어는 HCA, 2~60번 레이어는 CSA와 HCA가 교차하며, 마지막 MTP 블록은 슬라이딩 윈도우 전용으로 동작한다. 대부분의 KV는 FP8, RoPE 차원만 BF16, CSA 내 lightning indexer는 FP4로 저장한다.
에이전트 특화 후처리 학습으로는 도구 호출 간 추론 보존이 도입됐다. V3.2는 새 사용자 메시지가 들어오면 추론 트레이스를 버렸지만, V4는 도구 호출이 포함된 대화에서는 사용자 턴 경계를 넘어 추론 내용을 보존한다. 도구 없이 대화형으로 쓸 때는 기존처럼 매 턴 추론을 비워 컨텍스트를 간결하게 유지한다.
도구 호출 형식도 바뀌었다. V4는 |DSML| 특수 토큰과 XML 기반 도구 호출 포맷을 도입했다. 문자열 매개변수는 string=true로 그대로 전달하고, 구조화된 매개변수는 string=false로 JSON 전달해 JSON-in-string 포맷에서 자주 발생하던 숫자·불린 파싱 오류를 줄였다.
RL 롤아웃을 위한 샌드박스 인프라 'DeepSeek Elastic Compute(DSec)'도 공개됐다. Rust 기반 플랫폼이 함수 호출, 컨테이너, Firecracker 마이크로VM, QEMU 풀 VM 4종 실행 기반을 단일 Python SDK 뒤에 노출하며, 단일 클러스터에서 수십만 개의 동시 샌드박스를 운영한다. 계층화된 3FS 저장소로 이미지 로딩을 가속하고, 선점 안전한 트래젝토리 리플레이로 학습 중단 시에도 도구 호출 재실행 없이 재개 가능하다.
에이전트 벤치마크에서 V4-Pro-Max는 SWE Verified 80.6점(Opus-4.6-Max 80.8·Gemini-3.1-Pro 80.6과 1점 이내), MCPAtlas Public 73.6점(Opus-4.6-Max 73.8에 이은 2위), Toolathlon 51.8점, Terminal Bench 2.0 67.9점을 기록했다. 게시물의 내부 R&D 코딩 벤치마크 30개 과제에서는 67% 통과율로 Sonnet 4.5(47%)를 앞섰지만 Opus 4.5(70%)에는 못 미쳤다.
V4-Pro를 매일 사용한 DeepSeek 개발자 85명 설문에서 52%가 기존 주력 코딩 모델을 대체할 준비가 됐다고 답했고, 39%가 예에 가깝다고 답했다. MRCR 8-needle 장기 컨텍스트 검색 정확도는 256K 토큰까지 0.82 이상을 유지하고 1M 토큰에서 0.59를 기록했다.
허브에는 4개 체크포인트가 공개됐다. 인스트럭트 모델은 DeepSeek-V4-Pro(1.6T·활성 49B)와 DeepSeek-V4-Flash(284B·활성 13B), 베이스 모델은 동일 크기로 -Base 접미사가 붙는다. 인스트럭트 모델은 MoE 전문가 가중치는 FP4, 그 외에는 FP8을 쓰고, 베이스 모델은 전체가 FP8 양자화로 배포된다.