AWS, SageMaker AI·MLflow로 Strands Agents 구축 가이드 공개… Qwen3 4B/8B 엔드포인트 배포·OpenAI 호환 API·서버리스 MLflow 추적·A/B 테스트 4단계 시연
AWS 머신러닝 블로그가 자사 SageMaker AI 엔드포인트에 배포한 파운데이션 모델로 Strands Agents SDK 기반 AI 에이전트를 구축하는 가이드를 공개했다. 가이드는 SageMaker JumpStart로 모델을 배포하고, Strands Agents에 통합하며, SageMaker AI Serverless MLflow로 에이전트 추적을 설정한 뒤, 다중 모델 변형으로 A/B 테스트를 수행하는 4단계 흐름으로 구성됐다.
AWS는 기업이 매니지드 파운데이션 모델 서비스만으로는 충족하기 어려운 성능 튜닝, 대규모 비용 최적화, 컴플라이언스·데이터 레지던시, 모델 선택, 기존 보안 아키텍처와 통합되는 네트워킹 구성에 대한 정밀 제어를 필요로 한다고 가이드 도입부에서 설명했다. SageMaker AI 엔드포인트는 컴퓨트 리소스, 스케일링 동작, 인프라 배치를 조직이 통제할 수 있게 하면서도 AWS의 매니지드 운영 계층을 그대로 활용할 수 있다는 점을 강점으로 내세웠다.
Strands Agents SDK는 모델 주도 방식으로 단 몇 줄의 코드만으로 AI 에이전트를 구축·실행할 수 있게 하는 오픈소스 SDK다. 단순한 사용 사례부터 복잡한 에이전트 시나리오까지 확장되며, 로컬 개발에서 프로덕션 배포까지 동일한 구성을 유지한다. 가이드는 모델, 시스템 프롬프트, 도구 모음을 결합해 첫 에이전트를 만드는 예시를 제시하면서, 도구 모음으로 strands-agent-tools SDK가 함께 제공된다고 밝혔다.
기본 예제 코드에서는 Amazon Bedrock의 Claude 4.5 Sonnet 멀티 리전 추론 모델이 사용됐고, 본격적인 SageMaker 통합 예제에서는 SageMaker JumpStart에서 제공되는 Qwen3 4B와 Qwen3 8B 모델이 활용됐다. Strands Agents SDK의 SageMaker AI 프로바이더는 OpenAI 호환 chat completions API를 지원하는 모델이라면 사전 학습 모델과 커스텀 파인튜닝 모델 모두를 동일하게 다룰 수 있다.
가이드가 제시한 예제 구성에서는 SageMakerAIModel을 endpoint_name과 region_name으로 초기화하고, payload_config에 max_tokens 2048, temperature 0.2, stream True를 지정한 뒤 Strands의 Agent 객체에 http_request 등 도구를 결합한다. 사전 요건으로는 Amazon Bedrock·SageMaker AI 액세스가 가능한 AWS 계정, SageMaker AI Serverless MLflow와 Amazon S3·JumpStart 권한을 가진 역할, 그리고 로컬 또는 SageMaker AI Studio에서 동작하는 Jupyter 노트북이 필요하다.
관찰성(Observability) 단계에서는 SageMaker AI Serverless MLflow가 핵심 역할을 맡는다. 별도 계측 코드 없이 에이전트의 실행 트레이스, 도구 사용 패턴, 의사결정 워크플로우를 자동으로 캡처해 Strands Agents SDK와 네이티브로 통합되며, 여러 배포에 걸친 에이전트 동작 모니터링과 컴플라이언스용 감사 로그 유지를 단일 서비스로 처리한다. MLflow 앱은 SageMaker AI Studio UI 가이드형 설정 또는 Boto3 SDK 기반의 IaC형 자동화 두 가지 방식으로 배포할 수 있고, 가이드는 후자를 채택해 Boto3로 배포하는 흐름을 따른다.
AWS는 SageMaker AI에 모델을 배포하는 이유로 컴퓨트 인스턴스·네트워킹·스케일링 정책에 대한 인프라 제어, 커스텀 아키텍처·파인튜닝 변형·Llama·Mistral 등 오픈소스 대안을 자유롭게 배치할 수 있는 모델 유연성, 예약 인스턴스·스팟·적정 사이징을 통한 비용 예측 가능성, 그리고 MLflow 모델 레지스트리·A/B 테스트와 통합된 엔터프라이즈급 MLOps를 들었다. 가이드는 함께 공개된 GitHub 저장소의 Jupyter 노트북에서 전체 코드를 실행해볼 수 있다고 안내했다.
관련 기사
MIT 테크놀로지 리뷰 "AI 'Step 2'가 비어 있다"… 머콜 480개 직무 평가서 OpenAI·앤스로픽·구글 딥마인드 에이전트 모두 대다수 업무 실패
허깅페이스, OpenAI Privacy Filter 활용 PII 보호 웹앱 3종 가이드 공개… 1.5B 모델·128K 컨텍스트·BIOES 디코딩에 gradio.Server 통합
'deepseek-ai/DeepSeek-V3' 깃허브 트렌딩… 671B MoE·14.8조 토큰·H800 278.8만 GPU시간 학습, FP8 혼합정밀·128K 컨텍스트