Tracer Cloud, 오픈소스 AI SRE 프레임워크 'OpenSRE' 공개… 40개 이상 도구 연동 RL 환경
Tracer Cloud가 프로덕션 인시던트 대응을 자동화하는 오픈소스 AI SRE 프레임워크 'OpenSRE'를 공개했다. 프레임워크는 사용자의 자체 인프라 위에서 구동되며, AI SRE 에이전트와 이를 개선하기 위한 훈련·평가 환경을 함께 제공한다는 것이 특징이다.
개발진은 프로덕션 사고 대응이 아직 미해결 영역이라는 점을 출발점으로 삼았다. SWE-bench가 코딩 에이전트에게 확장 가능한 훈련 데이터와 명확한 피드백을 제공했지만, 분산 시스템 장애 대응은 로컬 코드 작업보다 느리고 잡음이 많으며 시뮬레이션과 평가가 더 까다로워 AI SRE 영역이 진전되지 못했다는 설명이다. OpenSRE는 이 공백을 메우기 위해 에이전트형 인프라 장애 대응을 위한 오픈 강화학습 환경과 E2E 테스트, 합성 인시던트 시뮬레이션을 함께 제공한다.
평가 구조는 두 축으로 나뉜다. tests/synthetic에는 루트 코즈 정확도, 필요한 증거, 의도적인 함정(adversarial red herrings)을 점검하는 스코어드 RCA 스위트가 들어 있다. tests/e2e에는 Kubernetes, EC2, CloudWatch, Lambda, ECS Fargate, Flink 등 클라우드 기반 시나리오를 다루는 실제 종단 간 테스트가 포함된다. 시맨틱 테스트 카탈로그 명명 규칙을 유지해 합성·E2E, 로컬·클라우드 경계가 명확히 드러나도록 했다.
설치는 curl·Homebrew·PowerShell 중 택1이며, 이후 'opensre onboard'로 로컬 LLM 프로바이더와 Grafana, Datadog, Honeycomb, Coralogix, Slack, AWS, GitHub MCP, Sentry 통합을 선택적으로 검증·저장할 수 있다. 'opensre investigate' 명령으로 데이터독 쿠버네티스 알림 같은 알림 픽스처를 입력하면, 에이전트가 알림 컨텍스트와 상관 로그·메트릭·트레이스를 자동으로 수집하고, 구조화된 조사 보고서와 추정 근본 원인을 생성한 뒤 Slack 또는 PagerDuty에 요약을 게시한다. 선택적으로 재발 방지 조치까지 직접 실행한다. 벤치마크는 'make benchmark' 명령으로 생성할 수 있다.
통합 범위는 40개 이상으로 열거된다. AI/LLM 영역에서는 Anthropic, OpenAI, Ollama, Google Gemini, OpenRouter, NVIDIA NIM, Bedrock을 지원한다. 관측성 계열에는 Grafana(Loki, Mimir, Tempo), Datadog, Honeycomb, Coralogix, CloudWatch, Sentry, Elasticsearch가 들어가며, 인프라는 Kubernetes와 AWS(S3, Lambda, EKS, EC2, Bedrock), GCP, Azure를 지원한다. 데이터베이스는 MongoDB·ClickHouse, 데이터 플랫폼은 Apache Airflow·Kafka·Spark·Prefect, 개발 도구는 GitHub·GitHub MCP·Bitbucket, 인시던트 관리에는 PagerDuty·Opsgenie·Jira, 커뮤니케이션에는 Slack·Google Docs, 에이전트 배포에는 Vercel·LangSmith·EC2·ECS가 포함된다. 지원 프로토콜은 MCP, ACP, OpenClaw다.
보안 측면에서는 원시 로그 데이터를 조사 세션 이후 저장하지 않고, 모든 LLM 호출에 구조화되고 감사 가능한 프롬프트를 사용하도록 설계됐다. 로그 트랜스크립트는 기본적으로 외부로 전송되지 않고 로컬에 보관된다. 텔레메트리는 Posthog로 익명 사용 통계만 수집하며 명령 이름, 성공·실패 여부, 대략적인 실행 시간, CLI·파이썬 버전, OS 계열, 머신 아키텍처 등이 대상이다. 알림 내용이나 파일 내용, 호스트명, 자격증명, 개인식별정보는 수집하지 않는다. GitHub Actions와 pytest 실행 시에는 텔레메트리가 자동 비활성화되며, 로컬에서는 'OPENSRE_NO_TELEMETRY=1'(레거시 명칭 'OPENSRE_ANALYTICS_DISABLED=1') 환경 변수로 옵트아웃할 수 있다. 라이선스는 Apache 2.0이다.
Tracer Cloud는 OpenSRE를 수천 개 규모의 실제 인프라 장애 시나리오까지 확장해, AI SRE의 벤치마크이자 훈련 기반으로 자리매김시키는 것을 장기 목표로 제시했다.