목록으로
연구2026년 5월 28일 AM 08:39

AWS, '베드락 데이터 오토메이션'으로 금융 문서 4종 자동 추출 청사진 공개

AWS 머신러닝 블로그가 아마존 베드락 데이터 오토메이션(BDA)으로 은행 명세서, W-2, IRS 1099-B, 벤더 계약서 등 금융 문서 4종을 자동 추출하는 사례를 공개했다. 금융 기관이 매일 수천 건의 세금 양식·대출 명세·구매 주문을 처리해야 하지만 양식별 포맷·구조·필드명이 모두 달라 OCR 기반 자동화 워크플로를 만들기 어렵다는 문제를 BDA가 풀어 준다는 설명이다.

BDA는 단순 OCR을 넘어 파운데이션 모델을 통해 문서 문맥을 이해하고, 섹션 간 관계를 인식하며, 구조화된 액션 데이터를 추출하고, 다중 소스 정보를 교차 검증한다. 앤트로픽 클로드 같은 모델로도 PDF에서 콘텐츠를 뽑을 수 있지만, BDA는 산업 최고 수준의 정확도와 낮은 비용에 더해 설명 가능성을 위한 비주얼 그라운딩 신뢰도 점수와 내장형 환각 완화 기능을 함께 제공한다고 AWS는 강조했다.

BDA에서 출력은 '블루프린트'라는 구성 템플릿으로 제어한다. 블루프린트는 처리할 문서 유형, 추출할 데이터 필드, 검증 규칙, 출력 구조와 포맷을 정의한다. 추출에는 카탈로그 블루프린트나 조직별 패턴을 정의한 커스텀 블루프린트를 사용할 수 있고, 이번 사례에서는 BDA 콘솔에서 커스텀 블루프린트를 직접 만들어 결과를 검증했다.

일관된 필드만 뽑으면 문서 유형당 블루프린트 하나로 충분하지만, 워크플로 요건이나 문서 포맷이 크게 달라지면 여러 블루프린트가 필요하다. 같은 블루프린트라도 입력 문서마다 출력이 조금씩 달라질 수 있는데(예: 일부 은행 명세서는 총 차변·대변을 포함), 출력이 구조화 JSON이라 다운스트림 규칙을 만들기 쉽다. 결과는 JSON, CSV, 원시 데이터 형식으로 받을 수 있다.

은행 명세서는 한 달치 거래가 여러 페이지에 걸쳐 다양한 포맷으로 들어 있어 추출 난이도가 높다. AWS는 거래 일자·금액·설명·참조 번호를 정밀 추출해 회계 원장의 거래 분류 같은 자동 회계 워크플로로 직접 연결할 수 있다고 설명했다. 평가에는 아마존 노바 프로 파운데이션 모델로 생성한 명세서 표본을 사용했고, 모든 거래가 정확히 추출됐다고 밝혔다.

W-2 양식은 표준화돼 있지만 구조가 복잡하다. AWS는 양식상 별도 묶음이 없는 연방세·주세 정보를 함께 처리하도록 한 점, 단일 박스 12에 보상·복리후생 코드가 최대 26개까지 들어갈 수 있어 코드와 값을 한 쌍으로 추출한 점, 고용주가 임의 항목을 넣는 박스 14를 별도로 묶어 처리한 점 등을 검증 포인트로 들었다.

IRS 1099-B는 증권 거래, 중개사 매개 거래, 물물 교환 거래를 추적하는 세금 양식이다. BDA의 문맥 이해 능력을 보여주는 사례로 AWS는 거래 표에 종목 디스크립터처럼 일관되게 표시된 'TSLA'를 시스템이 단순 공통 표시가 아니라 종목 식별자로 정확히 인식·추출한 점을 들었다.

마지막 문서 유형인 벤더 계약서는 1099-B와 마찬가지로 BDA가 빌트인 블루프린트를 제공하지 않는 사례로, 커스텀 블루프린트를 직접 만들어 추출 패턴을 맞춰야 한다. AWS는 빌트인 블루프린트가 있는 은행 명세서와 W-2에도 커스텀 블루프린트를 사용해 거래 데이터만 뽑거나 W-2 필드를 다운스트림 세무 시스템 구조(연방세·주세·코드-금액 쌍 등)에 맞춰 묶는 식의 맞춤 추출을 보여줬다고 정리했다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사