구글 SRE, 에이전틱 AI로 인시던트 자동화하는 'SRE AI' 전략 공개
구글이 20년 이상 운영해온 사이트 신뢰성 엔지니어링(SRE) 조직에 에이전틱 AI를 본격 도입하는 'SRE AI' 전략을 공개했다. 디스팅귀시드 소프트웨어 엔지니어 스테반 말레세빅과 디스팅귀시드 SRE 크리스토퍼 하이저가 공동 저자로 나섰고, 'AI in SRE Practice: Moving Beyond Automation at Google' 백서가 함께 공개됐다.
구글은 검색·Gmail·맵·유튜브·구글 클라우드 같은 서비스의 가용성을 유지하기 위해 신뢰성 우선 원칙의 SRE를 운영해 왔다. 최근 AI 등장으로 시스템 복잡도가 단계적으로 커졌다는 게 회사의 진단이다. 마이크로서비스 아키텍처에 따른 지리적·하드웨어 다양성 확대, 엔터프라이즈 클라우드 제품군 확장, 비즈니스·규제 요건의 증가, 그리고 AI 코드 생성으로 인한 코드량 폭증이 신뢰성 이슈 발생 빈도를 끌어올렸다는 설명이다.
구글의 SRE AI 전략은 흔히 떠올리는 근본원인분석(RCA)에 머무르지 않는다. 회사는 RCA가 핵심 영역이지만 전부는 아니라며, 소프트웨어 개발 수명주기(SDLC) 전 단계로 에이전트 적용 범위를 확장한다고 밝혔다. 신뢰성 설계, 이상탐지·알림, 인시던트 관리(IMAG), 인시던트 조사, 인사이트·리스크 관리가 작업 대상이다.
신뢰성 설계 영역에서는 설계·런칭·배포 단계에 사람을 완전히 빼지는 않지만 사전에 자동 감지·해결로 사람의 검토 시간을 크게 줄인다는 방향을 잡았다. 인시던트 대응용 런북(플레이북)과 운영 문서는 AI 에이전트가 실제 인시던트에서 어떻게 쓰였는지를 지속적으로 모니터링하면서 자동으로 개선하며, 인시던트 발생 이후에는 새 플레이북을 자동 생성하기도 한다.
이상탐지·알림에서는 정적 임계값 대신 평소 행동에서 벗어난 신호를 잡아내는 방식으로 옮겨갔다. 에이전트가 신호를 수집해 TimesFM 같은 모델에 넘겨 이상을 탐지하고, 과거 고객 사례의 신호를 활용해 고객 지향 SLO를 예측한다. 서비스 자체 신호뿐 아니라 고객 피드백 같은 외부 소스도 함께 본다. 이상이 감지되면 알림 에이전트가 묶고 전처리·맥락 보강을 한 뒤, 자율 알림 핸들러가 다수 이슈를 직접 처리하거나 완화한다.
인시던트 관리는 구글이 IMAG라는 이름으로 역할·책임·도구가 정립돼 있던 영역이다. SRE AI는 그 위에 에이전트 오케스트레이션 레이어를 얹는다. 인시던트 대응 도구·채팅·영상·추적 문서 같은 커뮤니케이션 면을 모니터링해 요약하고, SRE 간 핸드오프 문서를 만들며, 사후 검토(포스트모템) 초안을 자동 작성하고, 내부·외부 커뮤니케이션까지 관리한다.
인시던트 조사에는 자율 완화까지 시도하는 에이전트가 투입됐다. 이들 에이전트는 로깅·모니터링·트레이싱 같은 관측 데이터, 시스템 토폴로지·태그(택소노미)·의존성 정보를 먼저 확보해 도메인과 의도를 잡고, 별도로 만든 플레이북 실행 에이전트·알림 접근 에이전트·이상탐지 에이전트·인사이트 도출 에이전트를 조합해 가설을 세우고 완화 단계를 제안한다.
장기적 학습 측면에서는 'AI Insights'라는 시스템을 신설했다. 이미 알려진 인시던트를 계속 검토해 의미 있는 정보를 추출한 뒤 에이전트가 조사·완화에 활용할 수 있도록 한다. 구동에는 제미니 임베딩 모델과 벡터 지원 데이터베이스가 쓰인다. 별도의 리스크 인사이트 부분은 각 인시던트에 적절한 리스크 카테고리를 부여해, 에이전트가 완화를 적용하기 전 참고하거나 SRE가 우선 대응 영역을 정하는 데 활용된다.
공통 도구 면에서 구글은 모델 컨텍스트 프로토콜(MCP) 기반 도구·스킬을 잘 문서화해 에이전트가 가용 도구를 학습하게 한다고 밝혔다. 또 어떤 데이터를 어떻게 평가하는지에 대한 일관된 투명성과, 운영 상태가 의도치 않게 바뀌지 않도록 막는 일관된 통제를 두 핵심 원칙으로 강조했다.