연구2026년 4월 26일 PM 05:03

딥시크 'DeepEP' 깃허브 트렌딩… MoE 전용 GPU 통신 라이브러리, NVLink 158GB/s·RDMA 50GB/s 처리량·FP8 지원

딥시크(DeepSeek)가 공개한 GPU 통신 라이브러리 'DeepEP'가 깃허브 트렌딩에 올랐다. DeepEP는 전문가 혼합(Mixture-of-Experts, MoE)과 전문가 병렬화(Expert Parallelism, EP)를 위해 설계된 통신 라이브러리로, 'MoE 디스패치·컴바인'으로도 알려진 고처리량·저지연 all-to-all GPU 커널을 제공한다.

DeepEP는 FP8을 비롯한 저정밀 연산도 함께 지원한다. 딥시크-V3 논문에서 제안한 그룹 제한 게이팅 알고리즘과 호환되도록, NVLink 도메인에서 RDMA 도메인으로 데이터를 전달하는 등 비대칭 도메인 대역폭 포워딩에 최적화된 커널 세트를 갖췄다. 학습과 추론의 프리필링 단계 모두에 적합하며 SM(Streaming Multiprocessor) 수 제어 기능도 지원한다.

지연에 민감한 추론 디코딩 단계에는 순수 RDMA 기반의 저지연 커널이 별도로 포함된다. 또한 SM 자원을 전혀 점유하지 않는 훅(hook) 기반의 통신-연산 오버랩 방식을 도입한 것이 특징이다. 다만 라이브러리 구현은 딥시크-V3 논문과 약간의 차이가 있을 수 있다고 명시했다.

성능 테스트 환경은 H800 GPU에 CX7 InfiniBand 400Gb/s RDMA 네트워크 카드(최대 약 50GB/s)를 연결한 구성이다. 일반 커널 테스트는 딥시크-V3/R1의 사전학습 설정(배치당 4096 토큰, 히든 7168, top-4 그룹, top-8 전문가, FP8 디스패치·BF16 컴바인)을 따랐다.

측정 결과 노드 내 통신(EP=8)에서는 디스패치 153GB/s, 컴바인 158GB/s의 NVLink 병목 대역폭을 보였다. 노드 간 통신은 EP 16에서 약 43GB/s, EP 32에서 약 57~58GB/s, EP 64에서 약 50~51GB/s의 RDMA 대역폭을 기록했다.

저지연 커널은 딥시크-V3/R1의 일반적 운영 설정(배치당 128 토큰, 히든 7168, top-8 전문가)에서 측정됐다. 디스패치 EP 8 기준 지연 77μs·RDMA 98GB/s, EP 256 기준 지연 194μs·RDMA 39GB/s 수준이며, 컴바인의 EP 8 지연은 114μs·RDMA 127GB/s를 기록했다.

텐센트 네트워크 플랫폼 부서의 최적화 기여로 일부 성능이 최대 30%까지 향상됐다는 업데이트(2025.04.22, #130 PR)도 함께 공개됐다. 또한 저지연 커널이 NVLink를 가능한 한 많이 활용하도록 개선된 사항(2025.06.05, #173)도 반영돼 있다.

요구 사양은 Ampere(SM80) 또는 Hopper(SM90) GPU, Python 3.8 이상, CUDA(SM80은 11.0 이상·SM90은 12.3 이상), PyTorch 2.1 이상이다. 노드 내 통신용 NVLink와 노드 간 통신용 RDMA 네트워크가 필요하며, NVSHMEM에도 의존한다.

DeepEP는 InfiniBand 환경에서 완전히 테스트됐으며, RoCE(RDMA over Converged Ethernet)와도 이론적으로 호환된다. 트래픽 격리는 InfiniBand의 가상 레인(VL)을 통해 지원되며, 'NVSHMEM_IB_SL' 환경 변수로 일반 커널·저지연 커널·기타 워크로드를 분리해 사용할 것을 권장한다.

딥시크 'DeepEP' 깃허브 트렌딩… MoE 전용 GPU 통신 라이브러리, NVLink 158GB/s·RDMA 50GB/s 처리량·FP8 지원

관련 기사