OpenAI, 5개사 공동개발 MRC 네트워크 프로토콜 OCP 공개… 800Gb/s NIC를 8x100Gb/s 플레인으로 분할해 약 13만 1,000개 GPU를 2단 스위치로 연결, NVIDIA GB200 슈퍼컴서 검증
OpenAI가 AMD·브로드컴·인텔·마이크로소프트·엔비디아와 약 2년에 걸쳐 공동개발한 신규 네트워크 프로토콜 MRC(Multipath Reliable Connection) 사양을 OCP(Open Compute Project)에 공개했다고 발표했다. 대규모 AI 학습 클러스터의 GPU 네트워킹 성능과 회복력을 개선하기 위한 기술이며, 더 넓은 업계가 활용할 수 있도록 표준화한 것이다.
OpenAI는 매주 9억 명 이상이 ChatGPT를 사용하는 가운데 자사 시스템이 AI의 핵심 인프라가 되고 있다고 설명했다. Stargate 시작 이전에 자사 첫 3세대 슈퍼컴퓨터를 파트너들과 함께 직접 구축·운영했던 경험이 이번 MRC 설계의 토대가 됐으며, Stargate 규모로 효율적으로 컴퓨트를 활용하려면 네트워크 설계를 포함한 모든 계층의 복잡성을 재고하고 대폭 줄여야 한다는 결론에 이르렀다고 밝혔다.
MRC는 최신 800Gb/s 네트워크 인터페이스에 내장된 새로운 프로토콜로, 단일 데이터 전송을 수백 개 경로에 분산시키고, 마이크로초 단위로 장애를 우회하며, 더 단순한 네트워크 컨트롤 플레인을 운영할 수 있게 한다. RDMA over Converged Ethernet(RoCE)을 확장한 형태로, IBTA(InfiniBand Trade Association) 표준을 기반으로 하며 Ultra Ethernet Consortium(UEC)이 개발한 기법과 SRv6 기반 소스 라우팅을 결합했다.
핵심 설계는 멀티플레인 토폴로지다. 800Gb/s 인터페이스 하나를 단일 링크로 사용하지 않고 8개의 100Gb/s 링크로 분할해, 8개의 독립된 병렬 네트워크(plane)를 구성한다. 64포트 800Gb/s 스위치는 같은 칩으로 512포트 100Gb/s 스위치가 된다. 이 구조에서 약 13만 1,000개 GPU를 단 2단 스위치만으로 완전 연결할 수 있으며, 기존 800Gb/s 네트워크는 같은 규모를 달성하려면 3단 또는 4단이 필요하다고 OpenAI는 설명했다. 결과적으로 비용·전력 소모·경로 다양성에서 모두 개선이 있다는 것이다.
전송 방식도 바뀐다. 기존 AI 학습용 네트워크 프로토콜은 패킷 순서 보장을 위해 단일 경로를 사용했지만, MRC는 한 전송의 패킷을 수백 개 경로와 모든 plane에 흩뿌려(packet spraying) 보낸다. 패킷이 순서대로 도착하지 않더라도, 모든 MRC 패킷에 최종 메모리 주소가 포함돼 있어 수신 측이 도착 즉시 메모리에 직접 배치한다.
각 MRC 연결은 사용 중인 다중 경로에 대해 소량의 상태(state)를 유지한다. 특정 경로가 혼잡해지면 다른 경로로 교체해 부하를 균등화하고, 패킷 손실이 감지되면 즉시 해당 경로 사용을 중단하고 잃어버린 패킷을 재전송한다. 이후 프로브(probe) 패킷을 보내 실제 장애 여부와 회복 여부를 확인한다. 목적지 혼잡으로 인한 손실에는 'packet trimming' 기법을 적용해, 스위치가 패킷을 폐기하는 대신 페이로드를 잘라내고 헤더만 목적지로 전달한다.
MRC는 이미 OpenAI가 프런티어 모델 학습에 사용하는 최대 규모의 NVIDIA GB200 슈퍼컴퓨터들에 모두 배치돼 있다. 텍사스 애빌린(Abilene)의 Oracle Cloud Infrastructure(OCI) 사이트와 마이크로소프트의 Fairwater 슈퍼컴퓨터가 대표적이며, NVIDIA·브로드컴 하드웨어를 활용해 다수의 OpenAI 모델 학습에 사용됐다. 오늘 발표를 통해 MRC 사양은 OCP 기여로 공개돼 커뮤니티가 자유롭게 활용·확장할 수 있게 됐다.
OpenAI는 협력사들과 함께 'Resilient AI Supercomputer Networking using MRC and SRv6' 논문도 공동 작성해 운영 경험을 공유했다. 이번 MRC 사양 공개는 핵심 인프라 계층에서의 공유 표준이 더 넓은 파트너 생태계와 함께 AI 시스템을 효율적이고 안정적으로 확장하는 데 기여한다는 OpenAI의 전반적 컴퓨트 전략의 일환이라고 회사는 설명했다.
관련 기사
GitHub 'addyosmani/agent-skills' 트렌딩… 누적 2만 9,170 스타·오늘 629개, AI 코딩 에이전트용 7개 슬래시 커맨드·20개 스킬·3개 전문 페르소나
GitHub 'LadybirdBrowser/ladybird' 트렌딩… 누적 6만 2,833 스타·오늘 87개, SerenityOS 기반 멀티프로세스 독립 브라우저 엔진
Hugging Face Open ASR 리더보드, Appen·DataoceanAI 비공개 데이터셋 11종 도입… 'benchmaxxing' 차단·기본 Average WER는 공개셋만 유지