연구2026년 6월 17일 AM 09:37

AWS, 가드레일 리소스 없이 에이전트 단계마다 쓰는 안전검사 API 공개

AWS가 아마존 베드락 가드레일에 새 API 'InvokeGuardrailChecks'를 공개했다고 밝혔다. 가드레일 리소스를 따로 만들지 않고도 에이전트 AI 애플리케이션의 어느 단계에서든 개별 안전 검사(세이프가드)를 적용할 수 있는 것이 핵심이다.

이 API는 탐지 전용(detect-only) 모드로 동작하며, 각 안전 검사에 대해 숫자 점수를 돌려준다. 개발자는 자체 기준값과 동작을 정의해 콘텐츠를 차단·우회·재시도하거나 감사를 위해 결과를 기록할 수 있다.

기존 생성형 AI는 보통 사용자가 프롬프트를 보내면 모델이 답하고 가드레일이 양쪽을 평가하는 식으로, 하나의 가드레일 리소스를 만들어 일괄 적용한다. 반면 AI 에이전트는 입력·생성·반복을 거치는 루프로 동작해, 한 번의 사용자 세션이 10~20번, 혹은 그 이상의 턴을 포함하기도 한다.

각 턴에는 안전 검사가 필요한 두 단계가 있다. 콘텐츠가 모델로 들어가기 전(입력)과 모델 응답이 사용자에게 가기 전(출력)이다. AWS는 다중 턴 고객지원 에이전트를 예로 들며, 초기 질문에는 프롬프트 인젝션, 계정 정보가 담긴 후속 입력에는 개인식별정보(PII) 노출 등 단계마다 위험 성격이 다르다고 설명했다.

단계마다 별도의 가드레일 리소스를 만들어 적용하면 운영 부담이 커지고, 에이전트를 수백 개 배포할 때 확장성이 떨어진다. InvokeGuardrailChecks API는 요청마다 어떤 안전 검사를 실행할지 세밀하게 고를 수 있게 해 이 문제를 푼다.

이 API는 리소스 없이(resourceless) 동작해 가드레일을 미리 만들 필요가 없다. CreateGuardrail 단계도, 추적할 가드레일 ID나 관리할 버전도 없으며, 실행할 안전 검사를 요청마다 직접 지정한다. 또한 요청에 넣은 안전 검사 항목이 응답에도 같은 키로 돌아오는 대칭 구조를 갖춘다.

프롬프트 공격 탐지는 독립적으로 분리됐다. 프롬프트 공격 탐지가 콘텐츠 필터에 묶여 있는 ApplyGuardrail API와 달리, 이 API는 이를 별도 검사로 떼어내 탈옥(jailbreak)·프롬프트 인젝션·프롬프트 유출 같은 범주를 개별 지정할 수 있다.

지원하는 안전 검사는 세 가지다. 콘텐츠 필터는 증오·폭력·성적 표현·모욕·부정행위 범주의 유해 콘텐츠를 잡고, 프롬프트 공격 탐지는 탈옥·프롬프트 인젝션·프롬프트 유출 시도를 걸러낸다. 민감정보 필터는 이메일·전화번호·주민번호·신용카드 번호 등 31가지 유형의 PII를 탐지한다.

점수는 두 종류다. 콘텐츠 필터와 프롬프트 공격에 쓰이는 심각도 점수는 0, 0.2, 0.4, 0.6, 0.8, 1.0의 이산값으로, 1.0이 가장 강한 일치를 뜻한다. 민감정보에 쓰이는 신뢰도 점수도 같은 이산값으로 특정 PII가 있다고 모델이 얼마나 확신하는지를 나타내며, 각 결과에는 위치를 짚어주는 문자 오프셋이 함께 담긴다.

사용하려면 아마존 베드락 접근 권한이 있는 AWS 계정과 bedrock:InvokeGuardrailChecks 권한을 가진 IAM 역할, AWS CLI 또는 Boto3 SDK가 필요하다. 리소스가 없는 API라 범위를 지정할 가드레일 ARN이 없다는 점도 특징이다.

AWS, 가드레일 리소스 없이 에이전트 단계마다 쓰는 안전검사 API 공개

관련 기사