연구2026년 5월 12일 AM 03:33

구글 클라우드, 1조 매개변수 모델용 TPU 클러스터 신뢰성 모델 공개

구글 클라우드가 1조 매개변수 규모의 프런티어 AI 학습을 겨냥한 새로운 TPU 클러스터 단위 신뢰성 프레임워크를 공개했다. 글은 시니어 스태프 소프트웨어 엔지니어 Akshay Vasudev와 그룹 프로덕트 매니저 Mohan Pichika가 작성했다.

구글은 거의 20년간 클라우드의 표준이었던 인스턴스 단위 신뢰성이 대규모 AI 워크로드에는 부적합하다고 진단했다. 마이크로서비스와 수평 확장에 맞춰 설계된 이 모델 대신, 슈퍼팟 수준의 집합적 성능을 기준으로 삼는 클러스터 단위 신뢰성으로 옮겨가야 한다는 입장이다. 이번 프레임워크는 현재 생산 TPU의 운영 표준이자 최근 발표된 8세대 TPU의 아키텍처 청사진이라고 밝혔다.

TPU 슈퍼팟은 64개 TPU로 구성된 큐브 수천 개로 이뤄진다. 큐브 내부는 모든 칩을 잇는 고속 ICI(Inter-Chip Interconnect) 링크로 연결되고, 큐브들은 동적으로 재구성 가능한 OCS(Optical Circuit Switch) 네트워크로 묶여 슈퍼팟을 이룬다. 시스템 전체 학습 진행을 위해서는 슈퍼팟 안에서 완전히 정상 상태인 큐브 수를 최대화해야 하며, 큐브 안의 모든 칩과 ICI 링크가 정상이어야 그 큐브가 학습에 기여할 수 있다.

수학적으로는 인스턴스 단위 결정론 대신 수천 칩에 걸친 확률론을 적용한다. 구글은 클러스터 단위 평균 고장 간격(MTBF)이 구성요소 수가 늘수록 급격히 떨어지는 점을 마르코프 부등식으로 직관적으로 설명한 뒤, 실제 가용성 평가에는 큐브를 독립 시행으로 보는 이항분포를 사용한다. 95% 신뢰구간에서 학습 생산성을 보장할 최소 가용 큐브 수 k를 누적분포로부터 산출하는 방식이다.

모델 적용 대상으로는 7세대 TPU Ironwood가 사용됐다. 구글은 Ironwood를 일반 사용 가능 상태로 공개했으며, Gemini와 Nano Banana 같은 자사 첨단 모델을 지원하는 커스텀 실리콘이라고 설명했다. Ironwood 슈퍼팟은 9,216개 칩을 단일 컴퓨트 도메인으로 묶은 고밀도 패브릭으로, 64칩 큐브 144개로 구성된다. 더 큰 작업을 위해 슈퍼팟 내 여러 큐브를 하나의 슈퍼슬라이스로 묶거나, 여러 슬라이스를 멀티슬라이스 클러스터로, 또는 여러 슈퍼팟의 큐브들을 데이터센터 네트워크로 연결해 확장할 수 있다.

이 모델로 산출한 Ironwood 슈퍼팟의 토폴로지 가용성은 144개 큐브 중 130개가 한 달의 95% 기간 동안 사용 가능하다는 것이다. 이는 ICI와 OCS로 완전히 상호 연결된 8,320칩의 대규모 컴퓨트 블록에 해당하며, 프런티어 AI의 대규모 학습인 '히어로 잡(hero job)'에 최적화된 신뢰성 모델이다. 신뢰 수준을 99%로 높이면 125개 큐브를, 95%로 낮추면 130개 큐브를 보장할 수 있는 비선형 관계가 형성된다.

큐브 한 곳에서 칩이나 ICI 링크 하나가 고장 나도 해당 큐브 전체가 '비정상'으로 분류되지만, 큐브 내 남은 용량에는 고객이 계속 접근할 수 있다. 130큐브 모델은 대규모 학습에 집중하면서도 나머지 큐브를 연구 실험·추론·개발/테스트 등 이질적 워크로드에 활용할 수 있도록 설계돼, 메인 학습의 신뢰성을 깨지 않으면서 슈퍼팟 활용도를 끌어올린다는 설명이다.

ML 생산성의 주요 지표인 굿풋(goodput)을 극대화하기 위해 구글은 세 계층 신뢰성 모델을 제시했다. 인프라 계층에서는 TPU 슈퍼팟이 물리적 규모와 연결성을 제공하고, 프레임워크 계층의 JAX와 Pathways가 고장 난 노드를 우회해 재구성하거나 핫스왑해 전체 재시작 없이 진행을 유지한다. 애플리케이션 계층에서는 자동 체크포인팅과 다계층 체크포인팅이 결합돼 장애 회복을 뒷받침한다. 이 인프라 단의 가용성이 스케줄링 굿풋을 끌어올려 전체 굿풋을 높이는 구조다.

구글 클라우드, 1조 매개변수 모델용 TPU 클러스터 신뢰성 모델 공개

관련 기사