연구2026년 5월 13일 AM 03:07

AWS, IDP Accelerator에 라벨 없는 문서 자동 스키마 생성 기능 추가

AWS가 라벨이 붙지 않은 문서 컬렉션을 자동으로 분류하고 스키마를 생성하는 '다중 문서 디스커버리(multi-document discovery)' 기능을 IDP Accelerator에 추가했다고 밝혔다. 사용자가 미리 문서 클래스를 알지 못해도 비주얼 임베딩과 에이전트를 활용해 분류 체계를 자동 구축한다.

IDP Accelerator는 자동 문서 처리와 정보 추출을 위한 서버리스 오픈소스 솔루션이다. 기존에는 추출하려는 클래스와 필드를 정의한 설정 파일이 필수였고, 디스커버리 모듈도 클래스별 대표 예시 문서가 하나씩 있어야 부트스트랩이 가능했다. 새 기능은 이 전제조건을 없애 라벨이 전혀 없는 문서 집합에도 적용할 수 있도록 했다.

파이프라인은 AWS Step Functions 상태 머신과 AWS Lambda 함수가 오케스트레이션을 담당하며, Amazon S3 버킷이나 ZIP 파일 업로드를 입력으로 받는다. Amazon Bedrock에서 제공되는 모델이 스키마를 생성해 기존 IDP Accelerator 설정 파일에 자동 통합된다.

첫 단계는 임베딩 생성이다. 각 문서를 시각적 특징 기반 벡터로 변환하는데, OCR 텍스트 대신 비주얼 임베딩을 사용해 레이아웃·서식·구조적 단서까지 포착하도록 했다. 멀티페이지 문서는 첫 페이지만 사용한다. 기본 임베딩 모델은 Amazon Bedrock에서 제공되는 Cohere Embed v4이며, 이미지 압축과 재시도, 레이트 리밋을 자동으로 처리한다.

다음으로 k-means 클러스터링이 실루엣 점수를 기준으로 최적의 k 값을 탐색한다. 기본 범위는 2부터 20까지이며, 각 클러스터에 최소 2개 문서가 들어가야 하므로 필요하면 상한 k가 그 이하로 조정된다. 실루엣 점수는 클러스터 간 분리도와 내부 응집도를 함께 측정하는 지표다.

벤치마크는 IDP Accelerator CloudFormation 스택과 함께 배포되는 OCR-benchmark 데이터셋 부분집합에서 진행됐다. 9개 문서 유형(은행 수표, 상업 임대 계약서, 신용카드 명세서, 배송장, 장비 점검표, 용어집, 청원서, 부동산 서류, 근무 일정표)에 걸친 293건의 단일 페이지 문서에서 실루엣 점수가 k=9에서 최고치를 기록해 실제 유형 수와 일치했다. ARI와 NMI 모두 1.0, 군집 순도(purity) 100%로 라벨 없이 완전한 분류를 달성했다.

클러스터가 식별되면 에이전트 단계로 넘어간다. 각 클러스터마다 Strands Agent가 호출돼 문서 유형을 판단하고 스키마를 생성한다. 에이전트는 클러스터 중심부와 주변부, 중간 거리 위치의 문서를 골고루 살펴 다양성을 파악하도록 설계됐다. Cluster Analysis Tool은 중심으로부터의 거리 순으로 문서 ID를 반환해 전략적 샘플링을 돕고, Document Viewer Tool은 모델 컨텍스트 한도에 맞춰 문서 이미지를 가져와 압축한다.

마지막에는 리플렉션(reflection) 단계가 클러스터별로 생성된 스키마를 함께 검토해 겹침이나 불일치를 잡아낸다. AWS는 다만 이번 벤치마크 결과가 모든 문서 데이터셋에서 동일하게 재현된다고 보장하지는 않으며, 데이터셋 특성이 품질에 직접적인 영향을 준다고 덧붙였다.

AWS, IDP Accelerator에 라벨 없는 문서 자동 스키마 생성 기능 추가

관련 기사