Vanguard, AWS 기반 사내 분석가용 'Virtual Analyst' 대화형 AI 구축기 공개… 'AI-ready 데이터' 8대 원칙·Bedrock·Redshift·Glue 등 풀스택 활용
<p>글로벌 투자 운용사 Vanguard가 자사 분석가용 대화형 AI '버추얼 애널리스트(Virtual Analyst)'를 AWS 위에서 구축한 여정을 공개했다. Vanguard는 개인 투자자·기관·금융 전문가에게 투자, 자문, 은퇴 서비스, 인사이트를 제공하는 글로벌 투자 운용사로, 투자자 소유(investor-owned) 구조 아래 모든 투자자를 공정하게 대우하고 투자 성공 가능성을 극대화한다는 단일 목적 아래 운영된다.</p>
<p>이번 프로젝트는 사내 금융 분석가들이 복잡한 데이터셋을 조회할 때 기본적인 질문에도 정교한 SQL 쿼리 작성이 필요했고, 데이터 팀의 응답에 며칠이 걸리는 경우도 있었다는 문제 의식에서 출발했다. 분석가와 비즈니스 이해관계자들은 의사결정을 위해 더 빠르고 직접적인 금융 데이터 접근을 원했다. Vanguard는 대화형 AI가 즉각 응답을 제공하는 확장 가능한 해법이라고 봤지만, 적절한 파운데이션 모델 선택만으로는 부족하며 'AI-ready 데이터' 인프라가 필요하다고 판단했다.</p>
<p>프로젝트가 진행되면서 팀은 효과적인 대화형 AI를 만드는 일이 머신러닝의 문제가 아니라 데이터 아키텍처의 문제라는 점을 깨달았다. 가장 정교한 파운데이션 모델도 신뢰할 수 있는 결과를 내려면 적절한 데이터 기반이 있어야 한다는 인식이 자리잡으며, AI 역량이 아니라 'AI 사용 준비가 된 데이터'를 먼저 구축해야 한다는 접근으로 전환했다.</p>
<p>Vanguard는 데이터 엔지니어, 비즈니스 분석가, 컴플라이언스 담당자, 보안 팀, 비즈니스 이해관계자들을 한 자리에 모았다. 데이터 엔지니어는 기술 인프라를, 비즈니스 분석가는 금융 메트릭의 시맨틱적 의미를, 컴플라이언스 팀은 규제 준수를, 비즈니스 사용자는 인사이트가 실제 어떻게 사용될지에 대한 현실 맥락을 각각 제공했다. 이 같은 교차 기능 협업이 명확한 소유권 모델, 시맨틱 정의, 품질 표준이 모두 이해·실행되는 운영 모델로 이어지며 AI의 토대가 됐다.</p>
<p>AWS는 통합된 서비스 스위트 덕에 채택됐다. Amazon Redshift의 고급 분석 역량부터 AWS Glue의 자동 데이터 카탈로깅, Amazon Bedrock의 파운데이션 모델 접근까지 AI-ready 데이터 아키텍처 구축에 필요한 풍부한 기능을 갖췄고, 금융 서비스 산업의 엄격한 보안·컴플라이언스 요건도 충족했다는 설명이다.</p>
<p>Virtual Analyst가 사용하는 AWS 스택은 ▲자연어 이해를 담당하는 파운데이션 모델용 Amazon Bedrock ▲민감한 금융 데이터 보호를 위한 AI 입출력 보안용 Amazon Bedrock Guardrails ▲확장 가능한 컴퓨트 인프라용 Amazon Elastic Container Service(ECS) ▲수평 확장 아키텍처에서 최소 지연으로 대화 영속성을 제공하는 Amazon DynamoDB ▲스토리지용 Amazon S3 ▲실험용 Amazon SageMaker ▲중앙 집중식 데이터 웨어하우징용 Amazon Redshift ▲정확한 데이터 통합을 위한 ETL 작업과 데이터 카탈로깅용 AWS Glue로 구성된다.</p>
<p>Vanguard는 이 여정에서 데이터 플랫폼·통합·상호운용성 같은 기존 토대 위에 AI-ready 데이터를 지원하기 위한 8대 가이드 원칙을 도출했다. 첫째, 명확한 데이터 제품·운영 모델 수립이다. 데이터 제품 소유자는 비즈니스 정렬을, 엔지니어링 스튜어드는 기술 품질을 책임지며, 데이터 신선도와 정합성 허용치에 대한 SLA, 다운스트림 소비자를 위한 지원 모델을 정한다. 핵심 데이터 자산마다 비즈니스·기술 양쪽 소유자를 지정하고 책임을 문서화한다.</p>
<p>둘째, 거버넌스·보안 조치 정의다. 컴플라이언스·보안 팀과 조기에 협업해 엔터프라이즈 ID 관리, 역할 기반 데이터 접근 제어, 쿼리 단위 인가, 보존 정책을 마련한다. Vanguard는 규제 요건을 충족하면서 비즈니스 민첩성을 지원하기 위해 인가 이벤트 로깅을 구현했고, 필요한 경우 행 단위·열 단위 보안을 적용했다.</p>
<p>셋째, 기술과 비즈니스 컨텍스트를 통합하는 메타데이터 카탈로그 구축이다. 통합 메타데이터·카탈로그를 컨트롤 플레인으로 두고 API로 노출한다. 기술 메타데이터에는 테이블·컬럼 설명과 데이터 타입, 변환 전반의 데이터 리니지, 동의어·범주 지표, 데이터셋 간 관계 매핑이 포함된다. 비즈니스 메타데이터는 속성별 비즈니스 정의·규칙, 도메인 용어·온톨로지, 비즈니스 소유 정보, 사용 컨텍스트를 담는다. 두 메타데이터를 단일 카탈로그로 통합하면 AI 시스템이 기술 구조와 비즈니스 의미 양쪽에 부합하는 정확한 쿼리를 생성할 수 있다.</p>
<p>넷째, 비즈니스 메타데이터를 운용 가능하게 하는 시맨틱 레이어 도입이다. 카탈로그에 정의된 비즈니스 정의·규칙·온톨로지를 실행 가능한 로직으로 변환해 핵심 메트릭과 데이터 요소 간 관계 정의 방식을 표준화한다. 이 레이어 위에서 비즈니스 분석가는 자연어로 데이터 관계에 대한 이해를 표현할 수 있고, 이는 정형화된 SQL 쿼리로 해석·번역돼 카탈로그에 명시된 비즈니스 정의와 관계가 그대로 강제된다.</p>
관련 기사
AWS, Amazon Bedrock AgentCore Runtime용 '서버리스 커스텀 MCP 프록시' 배포 가이드 공개… FastMCP 기반·AgentCore Gateway 업스트림 연동·계층별 독립 인가
uBlock Origin 깃허브 트렌딩 급상승… Chromium·Firefox용 광역 차단기, EasyList 등 기본 5종 필터·Chrome 139 지원 종료 예고, 누적 63,876 스타·당일 +569
Microsoft PowerToys 깃허브 트렌딩 진입… 30+ Windows 유틸리티·v0.99.0 배포, v0.100 'Shortcut Guide·Command Palette 확장' 예고, 누적 132,185 스타·당일 +79