구글 딥마인드 'Decoupled DiLoCo' 공개… 미 4개 지역 12B 모델 분산 학습, 광역 2-5Gbps에서 기존 동기화 대비 20배 가속
구글 딥마인드와 구글 리서치가 'Decoupled DiLoCo'(Distributed Low-Communication) 분산 학습 아키텍처를 공개했다. 컴퓨트를 분리된 '아일랜드'로 나누고 그 사이에 비동기 데이터 흐름을 두어 한 부위의 장애가 다른 부위의 학습 진행을 끊지 않도록 격리하는 구조다.
기존 프런티어 모델 학습은 동일한 칩 수천 개가 거의 완벽한 동기화를 유지해야 하는 강결합 시스템에 의존해 왔다. 미래 세대로 확장할수록 이 수준의 동기화 유지가 큰 물리·운영 부담이 된다는 문제의식에서 출발했다.
Decoupled DiLoCo는 비동기 데이터 흐름 기반의 분산 AI 시스템 'Pathways'와, 분산 데이터센터 간 필요한 대역폭을 크게 줄여 LLM의 원거리 학습을 가능하게 한 'DiLoCo' 두 선행 연구를 결합한다. Pathways 위에서 분리된 컴퓨트 아일랜드(러너 유닛, learner units) 간 비동기 학습이 가능하다.
인프라는 자가 치유(self-healing)를 지원한다. 카오스 엔지니어링 기법으로 학습 중 인위적 하드웨어 장애를 주입한 테스트에서, Decoupled DiLoCo는 러너 유닛 전체가 사라져도 학습을 계속했고 해당 유닛이 복구되면 자연스럽게 재통합됐다.
Gemma 4 모델로 진행한 테스트에서는 하드웨어 장애 발생 시 전통적 학습 방식보다 학습 클러스터 가용성을 더 높게 유지하면서도 최종 ML 벤치마크 성능은 동일한 수준을 기록했다.
프로덕션 수준의 완전 분산 사전학습 사례로는 12B 파라미터 모델을 미국 내 4개 별도 지역에 걸쳐 학습한 결과를 제시했다. 광역망(WAN) 2-5Gbps 수준 대역폭만 사용했으며, 이는 데이터센터 시설 간 기존 인터넷 연결로 비교적 달성 가능한 수준이라고 구글은 설명했다.
이 학습은 기존 동기화 방식보다 20배 이상 빨랐다. 한 부분이 다른 부분을 기다려야 하는 '블로킹' 병목을 피하고, 필요한 통신을 더 긴 컴퓨트 구간 안에 흡수시킨 결과라고 구글은 밝혔다.
또 다른 효과는 서로 다른 세대의 하드웨어를 같은 학습 작업에 혼용할 수 있다는 점이다. TPU v6e와 TPU v5p를 단일 학습 실행에 함께 투입한 실험에서, 서로 다른 속도로 동작하는 칩들이 단일 칩 종류 학습과 동일한 ML 성능을 달성했다. 이는 기존 하드웨어의 활용 수명을 연장하고, 새로운 세대의 칩이 모든 거점에 동시에 도입되지 않는 현실적 제약도 완화한다.
작업은 구글 딥마인드와 구글 리서치 합동 팀이 수행했다. 리드·핵심 기여자로 아서 두이야르(Arthur Douillard), 키스 러시(Keith Rush), 야니 돈체프(Yani Donchev), 재커리 찰스(Zachary Charles), 아유시 두베이(Ayush Dubey), 블레이크 우드워스(Blake Woodworth), 이오넬 고그(Ionel Gog), 요제프 딘(Josef Dean), 노바 팰런(Nova Fallen), 재커리 개럿(Zachary Garrett)이 이름을 올렸다.