목록으로
제품2026년 6월 5일 AM 02:36

메타, 데이터센터 순간 정전 대비 테스트 '파워로스 스톰' 도입

메타가 데이터센터에서 사전 경고 없이 닥치는 순간 정전에 대비하기 위한 새로운 테스트 패러다임 '인스턴테이니어스 파워로스 스톰(Instantaneous PowerLoss Storm)'을 공개했다. 메타가 오래 운영해 온 재해 대비(Disaster Readiness) '스톰' 프로그램의 일부로, 알려진 위험뿐 아니라 새로 떠오르거나 아직 알지 못하는 위험에서 비롯된 순간·무경고 정전을 막는 최후의 방어선이자 안전망으로 소개됐다.

메타는 허리케인, 산불, 전력 공급과 네트워크 장애 등 다양한 재해가 데이터센터 인프라를 위협한다고 밝혔다. 몇 시간 이상 사전 경고가 있는 상황은 기존 조기 경보 체계로 대응해 왔지만, 인프라의 규모와 종류가 커지면서 순간 정전 같은 무경고 재해에 대한 대비 수준을 높여야 했다는 설명이다.

순간 정전을 견디는 능력은 기계·전기 설비부터 서버 랙, 스토리지와 컴퓨트, 핵심 컨테이너 오케스트레이터 '트와인(Twine)'까지 데이터센터 스택 전반에 처음부터 내장됐다. 랙이 전력을 잃었을 때 배터리와 '파워 로스 사이렌(PLS)'으로 인메모리 데이터를 보존하는 기능, 트와인 서비스를 위한 리전 단위 비동기 신호 체계인 '비가용성 이벤트(UE)'가 그런 사례다.

이런 기능들은 단일 데이터센터 내 개별 장애 구역에서는 충분히 검증됐지만, 리전 전체로 범위를 넓히면 새로운 취약점이 드러났다. 리전은 여러 데이터센터 건물이 한곳에 모여 네트워크와 전력을 공유하는 단위로, 통상 개별 장애 구역의 50~60배 규모다. 전원이 꺼진 리전을 다시 살리려면 수백만 개의 서비스가 동시에 시작해 서로를 자동으로 찾아내는 '부트스트래핑'이 필요하다.

가장 까다로운 문제는 의존성, 특히 '우로보로스'라 불리는 순환 의존성이었다. 트와인의 제어 평면 서비스인 스케줄러, 얼로케이터, 브로커, 젤로스(Zelos) 등이 없으면 다른 서비스를 시작할 수 없는 닭과 달걀 문제다. 메타는 핵심 시작 의존성을 식별해 CI/CD 파이프라인의 '벨자(Belljar)' 테스트로 조기에 걸러냈고, 예기치 못한 순환 의존성을 끊어 주는 트와인 복구 키트의 '점프스타트' 기능과 트르코(Twrko)를 더해 이 문제를 해결했다.

'부메랑' 문제도 있었다. 종료와 복구를 지휘하는 비가용성 이벤트(UE)가 오히려 오케스트레이터 제어 평면 서비스 자신을 종료시켜, 종료 신호를 받지 못해 정리되지 못한 '고아 서비스'가 생기는 현상이다. 메타는 제어 평면 서비스가 전력 관련 UE에 딸린 종료 신호를 단순히 '무시'하도록 하는 방식으로 이를 풀었다.

메타는 신뢰성과 성장 속도 사이의 균형을 맞추기 위해 일부 절충을 택했다. 스토리지·데이터베이스의 데이터 손실, 데이터센터 설비의 영구 손상, 단일 리전을 넘어서는 지속적 영향은 반드시 피해야 할 선으로 그었다. 반면 일시적 서비스 오류나 정해진 한도 내의 랙 장애, 라우팅 정보의 제한된 지연 등은 감내 가능한 위험으로 분류했다.

검증은 대규모 프로덕션 리전을 실제로 정전시키는 방식으로 이뤄졌다. 메타는 신규·사전 프로덕션 리전과 프로덕션을 복제한 '섀도(shadow)' 리전에서 먼저 시험한 뒤, 가장 작은 프로덕션 리전을 거쳐 스토리지·AI·데이터 웨어하우스 워크로드가 도는 대형 리전까지 전원을 내렸다. 전력 공급 장애를 주입해 리전 전체를 즉시 정전시키고, 짧은 평균 대응 시간(MTTR) 뒤 영향받은 리전을 글로벌 컨트롤러와 스케줄러에서 격리하는 식이다. 메타는 리전 손실을 하위 장애 구역 손실만큼 매끄럽게 처리하는 것을 장기 목표로 제시했다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사