AWS, Nova Model Distillation로 비디오 검색 라우팅 최적화… Premier→Micro 증류로 추론 비용 95%↓·레이턴시 50%↓
AWS가 Amazon Bedrock의 모델 증류(Model Distillation)로 비디오 시맨틱 검색 인텐트 라우팅을 최적화한 사례를 공개했다. 교사 모델 Amazon Nova Premier의 라우팅 지능을 더 작은 학생 모델 Amazon Nova Micro에 전이해 추론 비용을 95% 이상 절감하고 레이턴시를 50% 줄였다.
1편에서 AWS는 Anthropic Claude Haiku로 멀티모달 비디오 시맨틱 검색의 인텐트 라우팅을 구현했다. Haiku는 사용자 검색 의도에 대한 정확도가 강했지만 엔드투엔드 검색 시간을 2~4초로 끌어올려 전체 레이턴시의 75%를 차지했다.
라우팅 로직이 복잡해질수록 제약이 커진다. 메타데이터가 제목·캡션·인물·장르·타임스탬프 다섯 속성을 넘어 카메라 앵글, 무드와 감정, 라이선스와 권리 기간 등 도메인 특화 분류로 확장되면 프롬프트가 무거워지고 응답이 느리고 비싸진다. 작은 모델을 이 작업에 맞춰 훈련하면 속도·비용·정확도를 동시에 확보할 수 있다.
전체 증류 파이프라인은 Jupyter 노트북에서 네 단계로 구성된다. Nova Premier로 생성한 1만 건의 합성 레이블 예시를 Bedrock 증류 포맷으로 Amazon S3에 업로드하고, 교사·학생 모델 식별자로 증류 훈련 잡을 Amazon Bedrock에 제출한 뒤, 온디맨드 추론으로 커스텀 모델을 배포하고, Amazon Bedrock Model Evaluation으로 라우팅 품질을 평가한다.
모델 증류는 지도 학습 미세조정(SFT)과 달리 전체 레이블 데이터셋을 요구하지 않는다. 프롬프트만 제공하면 Amazon Bedrock이 자동으로 교사 모델을 호출해 데이터 합성·증강 기법을 적용해 최대 1만 5,000개의 프롬프트-응답 쌍을 만든다. 훈련 신호를 더 통제하려면 레이블 데이터셋을 선택적으로 제공할 수 있다.
학습 데이터는 JSONL 포맷으로 bedrock-conversation-2024 스키마를 따른다. user 역할(입력 프롬프트)은 필수이고 assistant 역할(원하는 응답)은 선택이다. AWS는 Nova Premier로 1만 건을 준비해 시각·오디오·전사·메타데이터 네 신호 채널에 균형 분포로 배치하고 다양한 난이도와 엣지 케이스를 포함했다.
훈련은 Amazon Bedrock이 클러스터 프로비저닝, 하이퍼파라미터 튜닝, 교사-학생 파이프라인 설정 없이 오케스트레이션한다. 사용자는 교사·학생 모델과 학습 데이터의 S3 경로, 필요한 권한을 가진 IAM 역할만 지정한다. Nova Micro 기준 1만 건의 레이블 예시 훈련은 수 시간 내에 완료된다.
배포는 예측 가능한 대용량 워크로드용 Provisioned Throughput과 선결제 없이 사용량만큼 과금하는 On-Demand Inference 두 옵션을 제공한다. 온디맨드 기준 Nova Micro는 입력 토큰 1,000개당 $0.000035, 출력 토큰 1,000개당 $0.000140에 과금된다. 상태가 InService가 되면 표준 InvokeModel 또는 Converse API로 호출한다.
평가에서는 베이스 Nova Micro와 증류 Nova Micro, 기존 Claude Haiku를 나란히 비교했다. 예를 들어 "sunset over mountains" 쿼리에 대해 증류 모델은 시각 0.8·메타데이터 0.2 가중치와 "오디오·전사 요소가 없고 위치·시간 태그가 관련될 수 있다"는 근거를 담은 구조화된 JSON을 반환했다. 베이스 Nova Micro는 지시 이행과 출력 포맷 일관성 모두에서 약한 모습을 보였다.
AWS는 복제 가능한 노트북, 훈련 데이터 생성 스크립트 generate_training_data.py, 평가 유틸리티를 GitHub 저장소에 공개했다. 도메인 콘텐츠에 맞춘 쿼리 분포 조정과 추가 예시 생성을 위한 경로도 함께 제시된다.