AWS, Slack 연동 앰비언트 AI 모니터링 에이전트 'AgentWatch' 공개
AWS가 AWS 인프라를 사람의 개입 없이 지속 점검하는 앰비언트 모니터링 에이전트 'AgentWatch'를 ML 블로그에 공개했다. 여러 AWS 계정에 걸쳐 Amazon CloudWatch 알람과 지표·로그를 함께 살펴 사후 대응 대신 사전 감지로 옮겨가는 것이 목표다.
AWS는 기존 CloudWatch 알람이 너무 늦게 울리고 AWS Lambda 오류가 쌓이는데도 알아채지 못하며 Amazon EC2 성능 저하는 고객 신고가 들어와야 발견되는 사례가 잦다고 지적했다. 대시보드 수동 점검과 알람 분류, 사후 검토에 시간이 쏠려 정작 예방 작업에는 손을 대지 못하는 것이 운영팀의 일상이라는 진단이다.
앰비언트 에이전트는 이벤트 스트림을 듣다가 여러 작업을 동시에 처리하는 이벤트 기반 자율 시스템으로 정의됐다. 사람을 결정 단계로 끌어들이는 시점만 명확하게 두면 끊임없이 변하는 모니터링 상황에 잘 맞는다는 설명이다.
AgentWatch는 Amazon Bedrock 대형언어모델 위에서 동작하며 서버리스 호스팅 환경인 Amazon Bedrock AgentCore Runtime으로 배포된다. AgentCore Runtime은 인증·확장·인프라 관리를 자동 처리하고 에이전트를 HTTP 엔드포인트로 호출할 수 있게 해 운영 부담을 줄였다고 AWS는 설명했다.
솔루션은 기본 15분 주기로 인프라를 점검하면서 CloudWatch 알람과 중요 이슈, 리소스 상태를 요약한 보고서를 만들어낸다. MonitoringSchedule 파라미터로 5·10·30·60분 간격을 고를 수 있고, AWS는 알람 피로와 감지 지연 사이의 균형점으로 15분 기본값을 골랐다고 밝혔다.
사용자는 Slack에서 에이전트의 보고를 받고 자연어 질의로 인프라 상태를 다시 묻는다. AWS는 차세대 협업 환경에서 에이전트가 사람과 더 가까운 피드백 루프로 일하게 된다는 점을 강조하며 Slack을 종단 인터페이스로 골랐다고 설명했다.
AgentWatch는 세 가지 휴먼인더루프 패턴을 갖췄다. 첫 번째 Notify 패턴은 행동 권한 없이 중요한 사건을 알리는 데 쓰이며 15분마다 만들어지는 모니터링 보고서가 여기 해당한다.
두 번째 Question 패턴에서는 에이전트가 자동 복구로 갈지 온콜 엔지니어 에스컬레이션으로 갈지 모호할 때 Slack에 직접 질문을 던진다. AWS는 SRE가 큰 변경 전에 선임 관리자에게 묻는 흐름을 본떴다고 설명했다.
세 번째 Review 패턴은 AWS 리소스 변경, 스케일링 정책 조정, 알람 임곗값 변경처럼 영향이 큰 작업에 적용된다. 에이전트가 근거와 함께 제안을 올리면 사용자는 그대로 승인하거나 거절, 또는 파라미터를 수정한 뒤 실행하도록 결정할 수 있다.
AWS는 이런 패턴이 자동화의 위험을 낮추는 동시에 결정적 순간에만 사람의 판단을 끌어와 운영팀의 알람 피로를 줄인다고 평가했다.