AWS, 비디오 시맨틱 검색 구축 가이드 공개… Nova Multimodal Embeddings로 멀티모달 하이브리드 검색
AWS가 Amazon Bedrock에서 Amazon Nova Multimodal Embeddings를 활용한 비디오 시맨틱 검색 솔루션 구축 가이드를 공개했다. Nova Multimodal Embeddings는 텍스트·문서·이미지·비디오·오디오를 공유 시맨틱 벡터 공간으로 네이티브 처리하는 통합 임베딩 모델이다.
기존 방식은 모든 비디오 신호를 전사·수동 태깅·자동 캡셔닝으로 텍스트화한 뒤 텍스트 임베딩으로 검색했다. 대화 중심 콘텐츠에는 유효하지만 시간 정보가 사라지고 시각·오디오 품질에 따른 전사 오류가 발생했다. 새 모델은 모든 모달리티를 단일 검색 가능 표현으로 직접 매핑한다.
아키텍처는 두 파이프라인으로 구성된다. 비디오를 검색 가능한 임베딩으로 변환하는 인제스천 파이프라인(1~6단계)과 사용자 쿼리를 지능적으로 라우팅해 결과를 랭킹하는 검색 파이프라인(7~10단계)이다. 시맨틱과 어휘 신호를 결합하는 하이브리드 검색 아키텍처가 핵심이다.
인제스천 단계에서 브라우저 업로드 비디오는 Amazon S3에 저장되고 Orchestrator Lambda가 DynamoDB 상태를 갱신한 뒤 AWS Step Functions 파이프라인을 시작한다. AWS Fargate는 FFmpeg 장면 탐지로 비디오를 시맨틱 세그먼트로 분할한다.
각 세그먼트는 세 병렬 브랜치로 처리된다. Nova Multimodal Embeddings가 시각·오디오에 대한 1,024차원 벡터를 생성해 Amazon S3 Vectors에 저장하고, Amazon Transcribe는 음성을 텍스트로 변환해 세그먼트에 정렬한 뒤 Nova Multimodal Embeddings로 텍스트 임베딩을 만든다. Amazon Rekognition은 유명 인물을 식별해 타임스탬프로 세그먼트에 매핑한다.
Amazon Nova 2 Lite는 시각 콘텐츠와 전사로부터 세그먼트 단위 캡션과 장르 레이블을 합성한다. Lambda가 캡션·전사·유명인·장르 메타데이터와 벡터를 결합한 완전한 세그먼트 문서를 Amazon OpenSearch Service에 벌크 인덱싱한다.
검색 단계에서는 Amazon Cognito 인증을 거쳐 Amazon CloudFront 프런트엔드에 접근하고, Amazon API Gateway가 Search Lambda로 요청을 라우팅한다. 이어서 인텐트 분석과 쿼리 임베딩이 병렬로 실행된다. Amazon Bedrock의 Anthropic Claude Haiku가 시각·오디오·전사·메타데이터 네 모달리티에 0.0~1.0 관련성 가중치를 할당하고, Nova Multimodal Embeddings는 쿼리를 시각·오디오·전사 유사도 검색용으로 세 번 임베딩한다.
세그먼트 구분은 검색 정확도의 직접 변수다. Nova Multimodal Embeddings는 임베딩당 최대 30초를 지원한다. 솔루션은 FFmpeg의 ffprobe로 장면 경계 타임스탬프를 뽑아 약 10초를 목표로 최소 5초·최대 15초 윈도 안에서 가장 가까운 장면 전환에 경계를 스냅한다. 윈도 안에 장면 전환이 없으면 목표 길이에서 하드 컷한다.
이 설계는 시간적 맥락 유지, 멀티모달 쿼리 처리, 대규모 콘텐츠 라이브러리 확장, 검색 정확도 최적화 등 대부분의 비디오 검색 시스템이 놓치는 네 가지 핵심 결정을 다룬다. AWS는 자체 콘텐츠로 따라 배포할 수 있는 참조 구현을 GitHub에 공개했다.