제품2026년 5월 21일 AM 09:38

AWS, SageMaker AI 엔드포인트에 OpenAI 호환 API 지원 추가

Amazon SageMaker AI가 실시간 추론 엔드포인트에 OpenAI 호환 API 지원을 도입했다. 새로 추가된 /openai/v1 경로는 Chat Completions 요청을 받고 컨테이너의 응답을 그대로 반환하며 스트리밍도 지원한다. OpenAI 호환 엔드포인트는 표준 SageMaker AI API와 SDK를 통해 모든 엔드포인트와 추론 컴포넌트에서 활성화된다.

핵심은 클라이언트 변경 최소화다. OpenAI SDK, LangChain, Strands Agents를 이미 사용 중이라면 엔드포인트 URL만 바꾸면 SageMaker AI에서 모델을 호출할 수 있다. 별도의 커스텀 클라이언트나 SigV4 래퍼, 코드 재작성이 필요 없다. SageMaker AI는 URL에 포함된 엔드포인트 이름으로 라우팅하므로 어떤 OpenAI 호환 클라이언트와도 즉시 연동된다.

인증은 시간 제한 베어러 토큰 방식을 채택했다. SageMaker Python SDK가 기존 AWS 자격증명에서 최장 12시간 유효한 토큰을 생성한다. 이 토큰은 SigV4로 사전 서명된 URL을 base64로 인코딩한 문자열로, 생성 과정에서 네트워크 호출 없이 클라이언트 측에서 서명이 이뤄진다.

토큰을 검증할 때 서비스는 SigV4 서명 유효성과 만료 여부를 확인하고, 원래 IAM 권한이 호출을 허용하는지 점검한다. 토큰의 실효 수명은 지정한 만료 시간과 서명에 사용된 AWS 자격증명의 잔여 유효 시간 중 짧은 쪽으로 결정된다.

호출 측 IAM 역할에는 sagemaker:CallWithBearerToken과 sagemaker:InvokeEndpoint 권한이 필요하다. AWS는 InvokeEndpoint의 Resource를 특정 엔드포인트 ARN으로 좁히도록 권고하며, CallWithBearerToken은 리소스 단위 제한을 지원하지 않아 와일드카드를 사용해야 한다고 안내했다.

보안 권고로는 AdministratorAccess나 SageMakerFullAccess 같은 광범위한 권한을 가진 역할로 토큰을 만들지 말 것, 토큰을 디스크·환경변수·설정 파일·DB·분산 캐시에 저장하지 말 것, HTTPS 같은 암호화 채널로만 전송할 것 등이 명시됐다. 토큰 생성은 네트워크 비용이 없는 로컬 연산이므로 사용 시점마다 새로 생성하거나 httpx.Auth 기반 자동 갱신 패턴을 쓰는 방식이 권장됐다.

활용 사례로는 Strands Agents·LangChain 기반 다단계 AI 에이전트를 자체 SageMaker AI 엔드포인트에서 실행하거나, 추론 컴포넌트 기능으로 단일 엔드포인트에 범용 Llama, 도메인 특화 파인튜닝 Mistral, 분류용 소형 모델 등 여러 모델을 호스팅하면서 모두 동일한 OpenAI SDK로 호출하는 구성이 제시됐다. 파인튜닝한 오픈소스 모델을 배포할 때도 애플리케이션 코드는 그대로 두고 엔드포인트 URL만 교체하면 된다.

AWS는 함께 공개한 예제에서 허깅페이스의 Qwen3-4B 모델을 ml.g6.2xlarge 인스턴스에서 SageMaker AI vLLM 딥러닝 컨테이너로 배포해 단일 모델 엔드포인트를 구성했다. 사전 요건으로는 SageMaker 엔드포인트 생성 권한이 있는 AWS 계정, SageMaker Python SDK, OpenAI Python SDK, S3에 저장된 모델, AmazonSageMakerFullAccess 정책이 부여된 IAM 실행 역할 등이 안내됐다.

AI 코딩 에이전트용 LLM 게이트웨이 Bifrost를 운영하는 Caffeine.AI의 Giorgio Piatti AI/ML 엔지니어는 베어러 토큰 기능 덕분에 별도 SigV4 서명 없이도 SageMaker를 OpenAI 호환 추론 엔드포인트로 그대로 끼워 넣을 수 있어 자체 게이트웨이, Vercel AI SDK, 표준 OpenAI 클라이언트와 그대로 동작한다고 평가했다.

AWS, SageMaker AI 엔드포인트에 OpenAI 호환 API 지원 추가

관련 기사