목록으로
제품2026년 5월 27일 AM 04:34

AWS, NVIDIA NIM과 Strands·AgentCore로 멀티에이전트 캠페인 리뷰 가이드 공개

AWS가 NVIDIA NIM, Strands Agents, Amazon Bedrock AgentCore를 결합해 운영 환경에서 작동할 고성능 생성형 AI 에이전트를 구축하는 가이드를 ML 블로그에 공개했다. GPU 가속 추론, 서버리스 오케스트레이션, 공유 메모리, 내장 관측성을 한 아키텍처에 묶어 마케팅 콘텐츠 리뷰 시스템 사례로 정리했다.

AWS는 동시 요청이 늘면 추론 지연이 커지고, 상태 없는 실행 환경에서 에이전트가 대화·작업 컨텍스트를 잃어 결과가 흔들리며, 가시성이 부족해 추론 경로와 운영 비용을 통제하기 어렵다고 운영 단계의 한계를 짚었다. 여러 에이전트가 병렬 실행되고 컨텍스트를 공유해야 하는 멀티에이전트 시스템에서는 이 문제가 더 두드러진다고 설명했다.

가이드는 세 개의 전문 에이전트가 병렬로 작동하는 멀티에이전트 캠페인 리뷰 시스템을 구현한다. 페르소나 리뷰어 에이전트는 캠페인 콘텐츠를 다양한 관객 시각으로 평가해 공감도 점수를 매기고, 밸리데이터 에이전트는 법적·브랜드 가이드라인을 검토하며, 파이널라이저 에이전트가 결과를 모아 통합 권고안을 만든다. 사용자는 React 프런트엔드에서 문서를 제출하고 비동기 폴링으로 결과를 받는다.

추론은 build.nvidia.com에서 호스팅되는 NVIDIA NIM API가 담당한다. NVIDIA가 직접 운영하는 GPU 백엔드 위에서 CUDA(Compute Unified Device Architecture)와 TensorRT-LLM을 활용해 최적화된 대형언어모델을 돌리고, OpenAI 호환 Chat Completion API를 노출해 Strands 기반 오케스트레이션 레이어와 모델별 별도 변환 없이 연결된다.

에이전트 오케스트레이션은 AWS의 멀티에이전트 프레임워크 Strands Agents가 맡는다. 병렬 실행, 제어 흐름, 결과 집계를 명시적으로 모델링할 수 있고, Strands 오케스트레이터와 전문 에이전트를 함께 도커 컨테이너로 묶어 Amazon Bedrock AgentCore Runtime에 배포한다. 런타임은 체크포인트와 복구 기능을 갖춰 중단 상황에서 자동 복구하고 수천 건의 동시 호출까지 인프라 관리 없이 확장한다.

운영 가시성과 메모리는 Amazon Bedrock AgentCore Observability와 Memory가 맡는다. Observability는 워크플로 단계별 실행 경로와 중간 출력을 시각화하고, 지연 시간·토큰 사용량·오류율 같은 운영 지표는 Amazon CloudWatch로 확인한다. AgentCore Memory는 에이전트 호출 간 공유 컨텍스트와 다중 턴 대화 상태·히스토리를 저장해 향후 자연어 어시스턴트 인터페이스로의 확장도 지원한다고 AWS는 설명했다.

배포는 AWS Serverless Application Model(SAM) 템플릿 한 벌로 끝난다. 템플릿이 Amazon API Gateway 엔드포인트를 만들고 Strands 에이전트와 의존성, AgentCore Observability·Memory 설정이 함께 패키징·배포된다. AgentCore Runtime 배포에는 약 5분이 걸리며 API Gateway는 29초에 타임아웃되지만 AWS Lambda 함수는 계속 실행된다고 가이드는 안내했다.

AWS는 사전 요구사항으로 AWS CLI, AWS SAM CLI 1.100.0 이상, Docker 20.x 이상, Node.js 18.x 이상, Python 3.11 이상을 명시했다. DockerFile에는 strands-agents, strands-agents-tools, requests, bedrock-agentcore, boto3가 함께 패키징되며, NVIDIA NIM 사용에는 AWS Marketplace 구독이나 NGC 등록 과정에서 NVIDIA AI Enterprise EULA 동의가 필요하다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사