메타, 'Capacity Efficiency' AI 에이전트 플랫폼 공개… 수백 MW 전력 회수·조사시간 10시간→30분
메타(Meta)가 인프라 전반의 성능 이슈를 탐지하고 해결하는 과정을 자동화하는 AI 에이전트 플랫폼 'Capacity Efficiency Program'을 공개했다. 사내 시니어 효율화 엔지니어의 도메인 전문성을 재사용 가능한 기술(skill)로 인코딩하고, 여러 에이전트가 표준화된 도구 인터페이스 위에서 조사부터 수정까지 이어받도록 한 것이 특징이다.
메타는 이 플랫폼을 통해 수백 MW(메가와트) 규모의 전력을 회수했다고 밝혔다. 이는 미국 수십만 가구가 1년간 사용할 수 있는 전력량에 해당한다는 설명이다. 또한 엔지니어가 수동으로 진행하던 약 10시간 분량의 성능 이슈 조사 작업이 약 30분으로 압축됐고, 효율 개선 기회를 리뷰 가능한 풀 리퀘스트(PR)까지 자동으로 전달하는 파이프라인도 완성됐다.
메타는 30억 명 이상이 사용하는 서비스의 특성상 0.1%의 성능 리그레션도 상당한 추가 전력 소비로 이어질 수 있다고 밝혔다. 이에 Capacity Efficiency 조직은 '공격(offense)'과 '수비(defense)'의 양면 전략을 병행한다. 공격은 기존 시스템을 더 효율적으로 만들 수 있는 사전적 코드 변경 기회를 찾아 배포하는 작업이고, 수비는 프로덕션에서 리소스 사용량을 모니터링해 리그레션을 탐지하고 원인 PR을 찾아내 완화를 배포하는 작업이다.
두 활동 모두 기존에도 효과를 내고 있었지만, 이슈가 드러난 뒤 이를 실제로 해결하는 단계에서 엔지니어의 시간이 병목이 됐다. 프로파일링 데이터 조회, 최적화 접근법을 위한 문서·사례 검토, 최근 배포된 코드·구성 점검, 관련 출시에 대한 내부 논의 추적 같은 작업이 반복적으로 발생하기 때문이다.
메타는 공격과 수비가 동일한 구조를 공유한다는 점에서 두 개의 분리된 AI 시스템 대신 하나의 통합 플랫폼을 구축했다. 플랫폼은 두 개 층으로 구성된다. 첫 번째는 LLM이 코드를 호출할 수 있는 표준화된 인터페이스인 'MCP Tools'로, 프로파일링 데이터 조회, 실험 결과 조회, 구성 이력 조회, 코드 검색, 문서 추출 등 단일 기능 단위로 제공된다. 두 번째 'Skills' 층은 성능 효율화 도메인 전문성을 인코딩해 LLM이 어떤 도구를 어떻게 사용할지, 결과를 어떻게 해석할지를 담는다.
수비 축의 핵심은 메타가 자체 개발한 리그레션 탐지 도구 FBDetect다. FBDetect는 잡음이 많은 프로덕션 환경에서도 0.005% 수준의 낮은 성능 리그레션까지 잡아내며, 매주 수천 건의 리그레션을 탐지한다. 전통적으로는 최근 PR과의 상관관계 분석 같은 방식으로 원인 PR을 찾아낸 뒤 엔지니어에게 알림이 전달됐다.
여기에 새로 추가된 'AI Regression Solver'는 FBDetect의 가장 최신 구성요소로, 리그레션을 앞으로-고치는(fix-forward) PR을 자동으로 생성한다. 기존에는 성능 리그레션을 일으킨 PR이 롤백되거나(엔지니어링 속도 저하) 그대로 방치되는(인프라 자원 낭비) 경우가 많았다. 사내 코딩 에이전트는 리그레션 증상과 원인 PR(파일·라인 단위)을 도구로 수집하고, 특정 코드베이스·언어·리그레션 유형에 맞는 완화 지식을 Skill로 적용한 뒤(예: 로깅에서 발생한 리그레션은 샘플링 상향으로 완화) 새 PR을 만들어 원래 원인 PR의 작성자에게 리뷰 요청으로 돌려준다.
공격 축에서는 '효율화 기회(efficiency opportunities)' 개념이 핵심이다. 엔지니어는 기존 코드의 성능을 개선할 것으로 기대되는 제안 기회를 보고, AI에게 그 기회를 실제로 구현한 PR을 생성해 달라고 요청할 수 있다. AI 에이전트는 기회 메타데이터, 최적화 패턴 설명 문서, 유사 기회 해결 사례, 관련 파일·함수, 검증 기준 등을 도구로 모으고, 예컨대 특정 함수를 메모이즈(memoize)해 CPU 사용량을 줄이는 것 같은 해당 유형의 전문 지식을 Skill로 투입해 후보 수정안을 만든다. 생성된 코드는 구문·스타일 확인과 대상 이슈 일치 여부 검증을 거친 뒤, 한 번의 클릭으로 적용 가능한 형태로 엔지니어의 에디터에 노출된다.
메타는 공격과 수비가 동일한 도구층(프로파일링 데이터, 문서, 코드 검색)을 공유하면서 차이는 Skill에만 있다는 점에서 깔끔한 추상화가 성립했다고 설명했다. 이 통합 아키텍처 덕분에 새 에이전트를 추가할 때도 기존 도구·데이터 소스에서 쉽게 컨텍스트를 모을 수 있다는 것이 메타의 설명이다.