AWS, AgentCore와 Nova 2 Sonic 기반 옴니채널 음성 주문 레퍼런스 아키텍처 공개… Strands·MCP·CDK로 풀스택 구축
AWS가 자사 머신러닝 블로그를 통해 Amazon Bedrock AgentCore와 Amazon Nova 2 Sonic을 결합한 옴니채널 음성 주문 시스템 구축 가이드를 공개했다. 모바일 앱·웹사이트·음성 인터페이스에서 동일한 주문 경험을 제공하는 풀스택 레퍼런스 아키텍처로, 양방향 오디오 스트림 처리, 다중 턴 대화 컨텍스트 유지, 백엔드 서비스 통합, 트래픽 피크 대응 등 음성 AI 시스템의 주요 과제를 해결하는 것을 목표로 한다.
핵심 모델인 Amazon Nova 2 Sonic은 Amazon Bedrock에서 제공되는 음성-대-음성(speech-to-speech) 파운데이션 모델로, 실시간 음성 대화에 사용된다. 에이전트는 Strands 프레임워크로 구현되며, AgentCore Runtime 위에서 호스팅돼 Nova 2 Sonic을 통한 실시간 음성 처리와 도구 호출을 담당한다.
AgentCore Runtime은 microVM 격리 방식으로 각 사용자 세션을 독립된 가상 머신에서 실행해, 한 사용자의 세션이 다른 사용자의 성능이나 데이터에 영향을 주지 않도록 한다. AgentCore Gateway는 백엔드 REST API를 Model Context Protocol(MCP) 도구로 노출해, 에이전트가 비즈니스 로직 변경 없이 도구를 발견하고 호출할 수 있도록 표준화된 통신 계층을 제공한다.
전체 솔루션은 사용자 인증과 임시 AWS 자격 증명 발급을 담당하는 Amazon Cognito, REST 엔드포인트를 노출하는 Amazon API Gateway, 메뉴 조회·주문 처리·위치 기반 서비스 로직을 실행하는 AWS Lambda, 고객 프로필·주문·메뉴·장바구니를 한 자릿수 밀리초 지연으로 저장하는 Amazon DynamoDB, 픽업 추천에 활용되는 AWS Location Services, 프런트엔드 호스팅을 맡는 AWS Amplify로 구성된다.
사용자 요청 흐름은 다음과 같다. 사용자는 Amplify에 호스팅된 웹 앱에 접속해 Cognito로 인증 후 액세스 토큰과 ID 토큰을 받고, ID 토큰을 Cognito Identity Pool과 교환해 임시 AWS 자격 증명(액세스 키·시크릿 키·세션 토큰)을 획득한다. 이어 SigV4로 서명된 WebSocket 연결로 AgentCore Runtime에 접속하고 첫 메시지로 액세스 토큰을 보내 신원을 확인한다.
에이전트는 Cognito GetUser API로 토큰을 검증해 고객 이름·이메일·customerId를 추출한 뒤 Nova 2 Sonic을 초기화하고 개인화된 시스템 프롬프트를 구성한다. 이후 SigV4 인증으로 AgentCore Gateway에 MCP 클라이언트로 연결해 사용 가능한 도구를 발견하며, 사용자가 음성으로 주문하면 Nova 2 Sonic이 입력을 처리하고 MCP를 통해 비동기로 도구를 호출한다. 게이트웨이는 호출을 API Gateway·Lambda·DynamoDB·Location Services로 라우팅하고, 결과를 받은 Nova 2 Sonic이 음성 응답을 WebSocket으로 스트리밍한다.
아키텍처는 네 개 섹션으로 분리 배포된다. 섹션 A는 고객·주문·메뉴·카트·위치 데이터 저장소와 Lambda·API·인증을 포함한 샘플 레스토랑 백엔드, 섹션 B는 IAM 권한과 API 통합을 갖춘 AgentCore Gateway, 섹션 C는 ECR 컨테이너 저장소·S3 소스 업로드·CodeBuild 빌드 자동화·WebSocket 프로토콜로 구성된 AgentCore Runtime, 섹션 D는 백엔드 출력으로 자동 생성된 설정을 사용해 웹 앱을 배포하는 AWS Amplify다.
사전 요구사항은 AWS 계정, 배포 리전에서 Nova 2 Sonic 파운데이션 모델 액세스, Node.js 20.x 이상, Python 3.13 이상, AWS CLI 2.x, AWS CDK CLI 2.x, Boto3 1.38.0 이상이다. CDK 부트스트랩과 email-validator·pyyaml 등 추가 파이썬 패키지 설치도 필요하며, 코드는 aws-samples GitHub 리포지터리에서 내려받을 수 있다.
AWS는 이번 게시물을 통해 음성 AI 애플리케이션의 운영 부담을 자동 확장 매니지드 서비스로 줄이면서 모듈식 설계로 기존 백엔드 API와의 통합 재사용성을 높이는 패턴을 제시했다. 현장의 식음료·리테일 등 옴니채널 주문 시나리오에 그대로 활용하거나 컴포넌트 단위로 자체 시스템에 결합할 수 있다는 점이 강조됐다.