목록으로
제품2026년 6월 12일 AM 01:39

AWS, 베드락 데이터 오토메이션에 문서 추출 지침 자동 최적화 기능 추가

AWS가 아마존 베드락 데이터 오토메이션(BDA)에 추출 지침을 자동으로 다듬어 주는 '블루프린트 지침 최적화' 기능을 선보였다. 예시 문서 3~10개와 정답값만 제공하면 BDA가 몇 주가 아닌 몇 분 만에 추출 정확도를 끌어올리며, 별도의 모델 파인튜닝은 필요 없다.

송장·계약서·세금 서식·가입 신청서 같은 비정형 문서에서 구조화된 데이터를 뽑아내는 일은 많은 조직의 공통 자동화 과제다. BDA는 단일 API로 문서를 분류·추출·정규화·검증하며, 사용자는 자신의 문서 형식과 업무 요건에 맞춘 출력을 만드는 맞춤형 블루프린트를 쓴다.

문제는 정확도다. 문서가 예상 템플릿에서 벗어나거나 업체마다 양식이 다르고 스캔 품질이 나쁘면 정확도가 떨어진다. 블루프린트의 각 필드에는 추출을 안내하는 자연어 지침이 붙는데(예: invoice_number 필드에 '송장 번호'), 실제 문서에서는 라벨이 변형되거나 subtotal과 total처럼 비슷한 라벨이 혼동을 일으킨다.

기존에는 이런 지침을 사람이 직접 고쳐 가며 정확도를 높였다. 표현을 바꾸고 맥락을 더한 뒤 추출을 돌려 결과를 정답과 비교하고 다시 조정하는 과정을, 수백 개 업체의 문서를 다루는 조직이라면 문서 유형당 몇 주씩 반복해야 했다.

블루프린트 지침 최적화는 이 반복 과정을 하나의 워크플로로 자동화한다. BDA가 자체 추출 결과와 사용자가 제공한 정답값(그라운드 트루스)의 차이를 분석해 각 필드의 자연어 지침을 다듬어, 몇 주 걸리던 작업을 몇 분으로 줄인다.

사용법은 네 단계다. 먼저 까다로웠던 사례를 포함해 대표 문서 3~10개를 올리되 과적합을 피하도록 문서 분포의 다양성을 최대한 담는다. 이어 각 문서의 필드별 정답값을 제공하고, 최적화를 실행하면 BDA가 초기 추출 결과를 정답과 비교해 지침을 다듬는다. 마지막으로 정확도 지표와 최적화된 지침을 확인한다.

결과 지표에는 정밀도와 재현율을 합친 F1 점수와, 추출값이 정답과 정확히 일치한 필드 비율인 정확 일치율(exact match)이 포함된다. 최적화된 지침은 예시에서 배운 패턴을 반영해 더 구체적으로 바뀐다. 예컨대 '송장 번호'라는 지침이 '대개 문서 헤더 우측 상단에 있으며 Invoice # 또는 Invoice No. 뒤에 오는 숫자·영숫자 코드'처럼 상세해진다.

AWS는 가상의 자전거 제조사 문서를 예로 들었다. 주문 번호·품목 설명·수량·단가·합계 등을 추출하는 블루프린트를 만들고, 사이클 센트럴·바이크 월드 같은 소매업체의 대표 발주서 4건을 정답 파일과 함께 올려 최적화를 돌리자 총합 정확 일치율이 90%에서 92%로, 파일 단위 최선 사례는 92%에서 100%로 올랐다.

이 기능은 아마존 베드락 콘솔이나 API로 쓸 수 있다. AWS는 블루프린트와 샘플 PDF 문서, 정답 JSON 파일을 담은 샘플 솔루션도 제공하며, 클라우드포메이션 템플릿으로 배포하면 아마존 세이지메이커 AI 노트북이 API 기반 최적화 워크플로를 안내한다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사