PaddleOCR 3.5, Hugging Face Transformers 백엔드 지원 추가
PaddleOCR 3.5가 Transformers를 공식 지원 추론 백엔드로 추가한다고 Hugging Face 블로그가 공지했다. 사용자는 engine 매개변수로 백엔드를 선택하고 engine_config로 백엔드별 옵션을 넘기는, 더 유연한 추론 엔진 인터페이스가 도입됐다.
PaddleOCR는 OCR 시리즈로 PP-OCRv5, 문서 파싱 시리즈로 PaddleOCR-VL 1.5를 제공한다. 추론 백엔드 계층은 Paddle 정적 그래프, Paddle 동적 그래프, 그리고 새로 추가된 Transformers 세 가지다. OCR·문서 파싱 파이프라인은 PaddleOCR가 그대로 관리하므로, 개발자가 내부 컴포넌트를 일일이 호출할 필요가 없다.
적용 대상은 RAG, Document AI, 문서 에이전트 같은 LLM 응용이다. PDF, 스캔본, 스크린샷, 표, 차트, 수식, 복잡한 페이지 레이아웃을 구조화된 데이터로 바꾸는 인제스천 단계가 약하면 다운스트림 LLM 워크플로가 핵심 정보를 놓치거나 잘못된 컨텍스트를 검색해 응답 품질이 무너진다는 게 출시 배경이다.
설치는 PaddleOCR 3.5, PaddleX, Transformers, 호환 PyTorch 빌드를 함께 깐다. CUDA 12.6 환경 예시는 paddleocr==3.5.0, paddlex==3.5.2, transformers>=5.4.0이고, CPU·ROCm 등 다른 환경에서는 대상 하드웨어에 맞는 PyTorch 빌드를 설치하면 된다.
CLI에서는 paddleocr ocr 명령에 --engine transformers 플래그를 붙여 실행한다. Python API는 PaddleOCR(device="gpu:0", engine="transformers", engine_config={"dtype": "float32"}) 식으로 백엔드를 지정한다.
하드웨어별 튜닝은 engine_config에서 dtype(bfloat16 등), device_type, device_id, attn_implementation(예: sdpa) 같은 옵션으로 조절한다. Hugging Face Space 데모는 폭넓은 호환성을 위해 float32를 사용한다.
Transformers 백엔드는 이미 PyTorch·Transformers 인프라를 모델 로딩, 실험, 배포, 아티팩트 관리에 쓰는 팀에 적합하다. 반대로 OCR·문서 파싱 처리량 극대화가 우선이라면 기본 paddle_static 백엔드가 권장 선택지로 남는다.
이번 통합으로 PaddleOCR 모델은 Hugging Face Hub와 호환되는 모델 발견·배포 경로를 얻고, 기존 PyTorch·Transformers 서비스와의 연동 마찰이 줄어든다. Hugging Face Spaces에는 PaddleOCR 3.5 Transformers 데모도 함께 공개됐다.