목록으로
제품2026년 4월 9일 PM 10:08

AI용 PDF 파서 OpenDataLoader, 벤치마크 종합 1위(0.907) 기록하며 깃허브 스타 13,000개 돌파

AI 데이터 추출용 오픈소스 PDF 파서 OpenDataLoader-PDF가 깃허브 트렌딩에 진입했다. 현재 스타 13,153개를 기록하고 있으며, 하루에만 1,012개의 스타를 추가 획득하며 빠르게 성장하고 있다.

이 도구는 PDF에서 Markdown, JSON(바운딩 박스 포함), HTML 형식으로 데이터를 추출한다. 멀티 컬럼 문서와 과학 논문을 포함한 200개 실제 PDF 벤치마크에서 종합 0.907점, 테이블 정확도 0.928점으로 전체 1위를 기록했다.

결정론적 로컬 모드와 AI 하이브리드 모드를 결합한 구조가 특징이다. 단순한 페이지는 로컬에서 처리하고, 복잡한 테이블이나 스캔 문서, 수식, 차트가 포함된 페이지는 AI 백엔드로 라우팅한다. 하이브리드 모드에서 80개 이상 언어의 OCR을 내장 지원하며, LaTeX 수식 추출과 AI 기반 차트·이미지 설명 생성도 가능하다.

벤치마크에서 2위 docling(0.882), 3위 nutrient(0.880), 4위 marker(0.861)를 제치고 전 항목에서 고르게 높은 점수를 받았다. 읽기 순서 정확도 0.934, 테이블 정확도 0.928, 헤딩 정확도 0.821을 기록했으며, 페이지당 처리 속도는 0.463초이다.

Python, Node.js, Java SDK를 모두 제공하며, LangChain 통합도 지원한다. RAG(검색 증강 생성) 활용을 위해 구조화된 Markdown 청킹, 소스 인용을 위한 바운딩 박스 JSON 출력을 제공한다. Java 11 이상과 Python 3.10 이상이 필요하다.

PDF 접근성 자동화 기능도 주목할 만하다. 태그 없는 PDF를 자동으로 태그가 달린 PDF로 변환하는 최초의 오픈소스 도구로, 2026년 2분기 출시 예정이며 Apache 2.0 라이선스로 무료 제공된다. 현재 수동 PDF 교정 비용이 문서당 50~200달러에 달하는 시장의 대안으로 제시된다.

자동 태깅 기능은 PDF Association 및 veraPDF 개발사인 Dual Lab과 협력하여 개발되었으며, Well-Tagged PDF 사양을 따른다. PDF/UA-1 및 PDF/UA-2 변환은 엔터프라이즈 부가 기능으로 제공된다.

EAA, ADA, Section 508 등 전 세계적으로 PDF 접근성 규제가 강화되는 가운데, 레이아웃 분석부터 태그 생성까지 엔드투엔드로 자동화하는 이 도구가 규제 대응 비용을 크게 줄일 수 있을지 주목된다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사