제품2026년 6월 4일 AM 07:06

AWS, 베드록 생성형 AI 운영 자동 감시 솔루션 '옵스 얼럿' 공개

AWS가 아마존 베드록에서 생성형 AI 워크로드를 자동으로 감시하는 솔루션 'Amazon Bedrock Ops Alert'를 공개했다. 베드록은 스타트업부터 글로벌 대기업까지 전 세계 10만 곳이 넘는 조직이 생성형 AI 애플리케이션과 에이전트를 운영하는 데 쓰고 있으며, 도입이 확산될수록 선제적인 운영 관리가 혁신 속도를 유지하는 관건이 된다는 것이 AWS의 진단이다.

이 솔루션은 다섯 가지를 노린다. 사용 패턴을 추적해 쿼터 증설 필요를 미리 예측하는 선제적 다계층 모니터링, AWS 지원 엔지니어에게 필요한 정보를 함께 넘겨 해결 시간을 단축하는 컨텍스트 기반 지원 케이스 자동화, 같은 알람 범주의 미해결 케이스가 있으면 새 케이스 생성을 억제하는 중복 케이스 방지, AI SRE 팀이 빠르게 대응하도록 돕는 맥락형 알림, 그리고 수작업 운영 부담을 줄여 혁신에 집중하게 하는 것이다.

베드록은 자원 배분을 위해 분당 요청 수(RPM)와 분당 토큰 수(TPM)에 서비스 쿼터를 두고, 워크로드가 커지면 AWS 지원 케이스를 통해 이를 늘릴 수 있다. 초기에는 아마존 클라우드워치 지표에 기반한 외부 대시보드와 수작업으로 쿼터 소비를 살피고 증설을 요청하는 방식이 흔하지만, 도입이 확대되면 한계가 드러난다.

AWS는 쿼터 증설보다 워크로드 최적화가 용량 문제를 더 효과적으로 푼다고 본다. 교차 리전 추론은 여러 AWS 리전의 연산을 활용해 예기치 못한 트래픽 급증에 대응하며, 글로벌 교차 리전 추론은 요청을 전 세계 상용 리전으로 라우팅해 지리적 경계를 넘어선다. 글로벌 추론 프로파일을 쓰면 개별 리전 용량 제약에서 벗어나 지리 기반 교차 리전 추론 대비 약 10%의 비용 절감을 얻는다.

프롬프트 캐싱은 컨텍스트 일부를 캐시에 담아 모델이 입력 재계산을 건너뛰게 하는 선택적 기능으로, 길고 반복되는 컨텍스트를 여러 질의에서 재사용할 때 비용을 최대 90%, 지연을 최대 85%까지 줄여 TPM 소비를 직접 낮춘다. 배치 추론과 인텔리전트 프롬프트 라우팅도 호출마다 가장 비용 효율적인 모델을 골라 요청당 부담을 더 줄인다.

AI SRE 팀이 흔히 꼽는 개선 과제는 네 가지다. 업무 사용자가 영향을 보고해야 비로소 문제를 알게 되는 반응형 운영, 단순 쿼터 증설과 심층 조사가 필요한 사안을 구분할 케이스 컨텍스트의 부족, 새 파운데이션 모델마다 별도 모니터링과 쿼터 요청이 필요해 모델 수에 비례해 늘어나는 운영 노력, 그리고 쿼터가 증설될 때마다 클라우드워치 알람 임계치를 일일이 다시 계산해야 하는 이동하는 임계치 문제다.

Amazon Bedrock Ops Alert는 AWS 클라우드포메이션 기반으로, 세 개의 상호 보완적 탐지 계층을 통해 생성형 AI 가시성을 구현한다. 클라우드워치 알람, AWS 람다 함수, 아마존 SNS, 서비스 쿼터 API, AWS 지원 API를 사용한다. 1계층은 스로틀·클라이언트 오류·서버 오류를 즉시 알리는 핵심 오류 탐지, 2계층은 RPM·TPM·지연을 동적으로 계산된 임계치와 비교하는 사용률 모니터링, 3계층은 클라우드워치 머신러닝으로 비정상 패턴을 찾는 이상 탐지를 맡는다.

동작은 이렇게 이어진다. 배포 시 쿼터 계산기 람다가 서비스 쿼터 API에서 현재 RPM·TPM 값을 가져와 설정된 비율로 알람 임계치를 계산하고, 그 값은 시스템 매니저 파라미터 스토어에, AI SRE 팀 연락처는 시크릿 매니저에 저장된다. 베드록이 호출 수·토큰 수·오류·스로틀·지연 같은 런타임 지표를 클라우드워치에 올리면 세 계층이 이를 평가하고, 자식 알람이 발생하면 복합 알람이 상태를 묶어 SNS 토픽에 게시한다. 알림 처리 람다는 어떤 자식 알람이 켜졌는지 확인해 심각도를 critical과 warning으로 가르고, 서비스 쿼터 API와 클라우드워치를 조회해 지난 14일간의 정상·피크 RPM·TPM과 요청당 평균 토큰을 파악한다.

AWS, 베드록 생성형 AI 운영 자동 감시 솔루션 '옵스 얼럿' 공개

관련 기사