정책2026년 5월 9일 AM 05:36

OpenAI, 사내 Codex 안전 운용 사례 블로그 공개

AI 시스템의 자율성이 커지면서 사용자 대신 행동하는 사례가 늘고 있다. 코딩 에이전트는 저장소를 자율적으로 검토하고 명령을 실행하며 개발 도구와 상호작용한다. 이는 과거 사람이 직접 수행하던 작업이다. OpenAI는 자사 코딩 에이전트 Codex에 대해 조직이 안전하게 배포하기 위해 필요한 통제 수단을 함께 설계했다고 밝혔다.

OpenAI는 보안팀이 에이전트 운영을 거버넌스하기 위해 무엇에 접근할 수 있는지, 사람의 승인이 언제 필요한지, 어떤 시스템과 상호작용할 수 있는지, 행동을 설명할 수 있는 어떤 텔레메트리가 존재하는지를 통제할 수단이 필요하다고 설명했다. 사내 Codex 배포의 목표는 에이전트를 명확한 기술 경계 안에 두고, 개발자가 저위험 행동에서는 빠르게 움직일 수 있게 하며, 고위험 행동은 명시적으로 멈추도록 하는 것이다.

운영 원칙은 단순하다. 경계 환경 안에서는 생산적이어야 하고, 일상적 저위험 행동은 마찰이 없어야 하며, 고위험 행동은 검토를 위해 멈춰야 한다. 승인 정책과 샌드박스는 함께 작동한다. 샌드박스는 Codex가 어디에 쓸 수 있는지, 네트워크 접근 가능 여부, 어떤 경로가 보호되는지 등 기술적 실행 경계를 정의한다. 승인 정책은 Codex가 샌드박스 외부 행동을 시도하는 등 사용자에게 묻고 진행해야 하는 시점을 결정한다. 사용자는 한 번 승인하거나, 해당 세션에서 같은 종류의 행동을 일괄 승인할 수 있다.

반복적인 승인 요청을 줄이기 위해 Auto-review 모드가 사용된다. 활성화하면 특정 종류의 요청을 자동 승인해 사용자가 멈춰서 승인하는 빈도를 낮춘다. Codex는 계획된 행동과 최근 컨텍스트를 자동 승인 서브에이전트에 전달하고, 서브에이전트는 저위험 행동을 사용자에게 묻지 않고 승인한다. 일상적 작업에서는 Codex가 계속 진행하되, 고위험 행동이나 의도하지 않은 결과를 낳을 수 있는 행동에서는 여전히 멈춘다.

OpenAI는 Codex에 무제한 외부 네트워크 접근을 허용하지 않는다. 매니지드 네트워크 정책은 예상된 도착지를 허용하고, 도달하지 않기를 원하는 도착지는 차단하며, 익숙하지 않은 도메인에는 승인을 요구한다. 이로써 Codex는 일반적이고 검증된 워크플로를 완료하면서도 광범위한 네트워크 접근권은 갖지 않는다. 인증 측면에서는 CLI와 MCP OAuth 자격 증명을 OS의 보안 키링에 저장하고, 로그인은 ChatGPT를 통해 강제하며, 접근은 OpenAI의 ChatGPT 엔터프라이즈 워크스페이스에 핀(pinned)된다. Codex 활동은 엔터프라이즈 워크스페이스의 ChatGPT Compliance Logs Platform에서 확인할 수 있다.

셸 명령에는 별도 규칙을 적용한다. 엔지니어가 일상적으로 쓰는 일반적이고 무해한 명령은 샌드박스 외부에서도 승인 없이 허용되며, 특정 위험 명령은 차단되거나 승인을 요구한다. 이러한 정책은 클라우드 매니지드 요구 사항, macOS 매니지드 환경설정, 로컬 requirements 파일의 조합으로 적용된다. requirements는 사용자가 재정의할 수 없는 관리자 강제 통제다. 같은 기준선을 유지하면서도 팀·사용자 그룹·환경별로 구성을 시험할 수 있도록 했고, 데스크톱 앱·CLI·IDE 확장 등 로컬 Codex 표면 전반에 적용된다.

통제는 절반에 불과하다는 것이 OpenAI의 설명이다. 에이전트가 배포된 뒤 보안팀에는 에이전트가 무엇을 왜 하고 있는지에 대한 가시성이 필요하다. 전통 보안 로그는 프로세스 시작, 파일 변경, 네트워크 연결 시도 같은 '무엇이 발생했는가'에 대해서는 여전히 유용하지만, Codex가 왜 그 행동을 했는지 또는 사용자의 의도가 무엇이었는지는 방어자에게 그대로 숙제로 남는다.

Codex는 OpenTelemetry 로그 내보내기를 지원한다. 사용자 프롬프트, 도구 승인 결정, 도구 실행 결과, MCP 서버 사용 내역, 네트워크 프록시 허용·거부 이벤트 등 다양한 Codex 이벤트가 대상이다. Codex 활동 로그는 Enterprise·Edu 고객을 위한 OpenAI Compliance Platform을 통해서도 제공된다.

OpenAI는 사내에서 Codex 로그를 자체 AI 기반 보안 트리아지 에이전트와 함께 쓴다. 엔드포인트 알림에서 Codex가 비정상 행동을 했다는 신호가 오면, 엔드포인트 보안 도구는 의심 이벤트가 발생했다는 사실을 알려준다. 그 시점에 Codex 로그가 사용자와 에이전트의 의도를 설명하는 맥락을 제공한다. AI 보안 트리아지 에이전트는 Codex 로그로 원래 요청, 도구 활동, 승인 결정, 도구 결과, 관련 네트워크 정책 결정·차단을 점검한 분석 결과를 보안팀에 노출해, 예상된 에이전트 행동·무해한 실수·실제로 에스컬레이션이 필요한 활동을 구분한다.

동일 텔레메트리는 운영 목적으로도 활용된다. OpenAI는 사내 도입 추이, 사용 중인 도구·MCP 서버, 네트워크 샌드박스가 차단·프롬프트하는 빈도, 추가 튜닝이 필요한 부분을 이 로그로 파악한다. OpenTelemetry 로그는 SIEM과 컴플라이언스 로깅 시스템으로 중앙화할 수 있다. 코딩 에이전트가 개발 워크플로에 통합되면서, 보안팀에는 이 전환을 관리하기 위해 특별히 설계된 도구가 필요하다는 것이 OpenAI의 결론이다.

OpenAI, 사내 Codex 안전 운용 사례 블로그 공개

관련 기사