AWS, Amazon Nova 2 Sonic 텍스트→음성 에이전트 마이그레이션 가이드 공개… ASR·LLM·TTS 단일 모델 통합, 비동기 도구 호출·내장 VAD·턴 감지 지원
AWS가 텍스트 에이전트를 Amazon Nova 2 Sonic 기반 음성 어시스턴트로 이전하는 방법을 정리한 마이그레이션 가이드를 공개했다. 사용자가 타이핑 대신 실시간으로 말하고 듣는 자연스러운 상호작용을 기대하는 가운데, 금융·헬스케어·교육·소셜미디어·리테일 분야가 Amazon Nova 2 Sonic으로 대규모 자연어 음성 인터랙션을 모색하고 있다는 게 회사의 진단이다.
AWS는 텍스트 에이전트와 음성 에이전트가 같은 문제가 아니라고 강조했다. 입력은 타이핑된 텍스트에서 실시간 음성 스트림으로 바뀌며, 사용자는 말 도중에 끼어들 수 있고 침묵의 길이도 의미를 갖는다. 응답은 풍부한 형식의 긴 문단·표·링크에서 한 번에 한 가지를 전달하는 짧은 발화로, 확인 루프(“이어서 알려드릴까요?”)가 동반돼야 한다.
지연 예산 측면에서도 차이가 크다. 텍스트 에이전트는 타이핑 인디케이터가 대기 시간을 가려주는 중간 정도의 지연을 허용하지만, 음성 에이전트는 첫 오디오를 수백 밀리초 안에 내보내야 하며 침묵은 회선이 끊긴 듯한 인상을 준다. 도구 호출이 연쇄될 때마다 가시적 침묵이 늘어나기 때문에, 스트리밍이 ‘있으면 좋은 것’이 아니라 ‘필수’가 되고 비동기 도구 처리도 ‘좋은 것’에서 ‘반드시 갖춰야 할 것’으로 격상된다.
Amazon Nova 2 Sonic은 비동기 도구 호출을 지원해 도구가 백그라운드에서 실행되는 동안 대화가 자연스럽게 이어진다. 입력을 계속 받아들이고 여러 도구를 병렬 실행하며, 사용자가 진행 중에 요청을 바꿔도 유연하게 적응해 관련된 결과만 전달한다. 또한 음성 활동 감지(VAD)와 턴 감지를 모델 내부에 내장한 네이티브 스피치-투-스피치(speech-to-speech) 모델로, 매 턴마다 전체 대화 이력을 다시 보낼 필요 없이 컨텍스트를 관리한다.
AWS는 음성 응답 설계의 사례로 은행 에이전트를 들었다. 음성 응답은 “계좌 세 개가 있습니다. 입출금 계좌는 4521로 끝나며 잔액은 3,245달러입니다. 다른 계좌도 살펴볼까요, 아니면 이 계좌의 상세 내역을 원하시나요?”처럼 정보를 청취 가능한 단위로 쪼개고, 다음 단계로 넘어가기 전 확인을 요청한다. 한 번에 모든 정보를 쏟아내는 대신 사용자에게 능동적으로 길을 안내하는 자율적 대화 스타일이다.
마이그레이션은 클라이언트 애플리케이션, 오케스트레이터, 도구 통합이라는 세 구성 요소를 그대로 두되 각각이 음성 특화 로직을 받아들여야 한다. 클라이언트는 무상태 REST 또는 단방향 HTTPS 스트리밍에서 WebSocket·WebRTC 같은 영구 양방향 연결로 바뀌어야 하며, 오디오 인코딩·디코딩, 클라이언트 이벤트, 바지인(barge-in) 처리, 노이즈 제어, 전사(transcription) 표시 기능이 추가된다. AWS는 Streamlit 프런트엔드로 만든 PoC라면 양방향 연결을 지원하기 위해 React 같은 자바스크립트 프레임워크로 다시 구축해야 할 가능성이 높다고 설명했다.
오케스트레이터는 시스템 프롬프트를 관리하고 도구나 서브 에이전트를 라우팅하며 대화 컨텍스트를 유지하는 중앙 허브다. 음성 오케스트레이터는 텍스트 오케스트레이터의 원칙을 따르되 오디오 스트리밍, VAD, 자동 음성 인식(ASR), 추론, 텍스트-투-스피치(TTS)를 함께 처리해야 한다. Amazon Nova 2 Sonic은 이 기능들을 결합한 양방향 스트리밍 인터페이스를 제공해, 텍스트 에이전트의 추론 프롬프트와 도구 트리거를 음성 환경으로 매끄럽게 옮겨 올 수 있다.
Nova 2 Sonic의 핵심 차별점 중 하나는 동일한 모델 인터페이스에서 텍스트와 오디오 입력을 모두 받아들인다는 점이다. 따라서 텍스트 오케스트레이터에서 사용하던 독립 텍스트 추론 모델을 Sonic이 직접 대체할 수 있고, ASR → LLM → TTS 컴포넌트를 별도로 연결할 필요가 사라진다. Sonic은 음성 인식, 추론, 도구 사용, 음성 합성을 단일 양방향 모델로 통합해 기존 프롬프트와 도구를 재사용하면서 아키텍처를 단순화하고 지연을 줄여 준다.
AWS는 Nova 샘플 저장소에서 제공하는 ‘Skill’이 Kiro·Claude Code 같은 AI IDE와 연동돼 텍스트 에이전트를 음성 에이전트로 자동 변환할 수 있다고 안내했다. 또한 WebSocket을 사용하는 React 기반의 경량 음성 에이전트 웹 클라이언트 샘플을 함께 공개했고, 본문에서는 Strands Agents로 구축한 텍스트 에이전트 코드 스니펫을 시연 자료로 제시했다.
AWS는 결과적으로 음성 에이전트로의 전환이 ‘텍스트 비즈니스 로직에 음성 인터페이스만 얹는 작업’이 아니라, 응답 설계, 지연 예산, 턴 분배, 전송 계층 전반의 재설계를 요구한다고 정리했다. Nova 2 Sonic은 ASR·추론·TTS를 통합한 단일 모델, 비동기 도구 호출, 내장 VAD와 턴 감지로 이러한 음성 특화 요구를 한 벌의 인프라로 처리하도록 설계됐다는 게 핵심 메시지다.