목록으로
연구2026년 4월 3일 AM 12:04

GLM-OCR, 0.9B 파라미터로 OmniDocBench 1위 달성… 오픈소스 공개

zai-org이 복잡한 문서 이해를 위한 멀티모달 OCR 모델 GLM-OCR을 오픈소스로 공개했다. GLM-V 인코더-디코더 아키텍처를 기반으로 한 이 모델은 OmniDocBench V1.5에서 94.62점을 기록하며 전체 1위를 차지했다.

GLM-OCR은 멀티토큰 예측(MTP) 손실과 안정적인 전체 과업 강화학습을 도입해 훈련 효율성, 인식 정확도, 일반화 성능을 개선했다. 대규모 이미지-텍스트 데이터로 사전훈련된 CogViT 비전 인코더, 효율적 토큰 다운샘플링을 갖춘 경량 크로스모달 커넥터, GLM-0.5B 언어 디코더로 구성된다.

총 파라미터 수는 0.9B로 경량이면서도 수식 인식, 테이블 인식, 정보 추출 등 주요 문서 이해 벤치마크에서 최고 성능을 달성했다. PP-DocLayout-V3 기반 레이아웃 분석과 병렬 인식의 2단계 파이프라인으로 다양한 문서 레이아웃에서 안정적인 OCR 성능을 제공한다.

실제 비즈니스 환경에 최적화되어 복잡한 테이블, 코드가 많은 문서, 도장, 기타 까다로운 실무 레이아웃에서도 견고한 성능을 유지한다. 0.9B 파라미터의 소형 모델이지만 실무 적용성에서 대형 모델에 뒤지지 않는다.

추론 효율 면에서도 vLLM, SGLang, Ollama를 통한 배포를 지원해 추론 지연과 연산 비용을 크게 줄인다. 고동시성 서비스와 엣지 배포 모두에 적합하도록 설계되었다.

완전한 오픈소스로 공개되었으며 포괄적인 SDK와 추론 툴체인을 제공한다. pip install 한 줄로 설치 가능하고 CLI 또는 Python에서 바로 사용할 수 있다. Hugging Face와 ModelScope에서 BF16 정밀도 모델을 다운로드할 수 있다.

클라우드 API 모드와 셀프 호스팅 모드를 모두 지원한다. 클라우드 모드에서는 GPU 없이 API를 통해 사용할 수 있고, 셀프 호스팅 모드에서는 vLLM이나 SGLang으로 로컬 서버를 구동해 완전한 제어가 가능하다.

애플 실리콘 맥에서의 mlx-vlm 최적화와 Ollama를 통한 간편 로컬 배포 등 다양한 배포 시나리오도 지원한다. 2026년 2월에는 LLaMA-Factory 기반 파인튜닝 가이드가, 3월에는 에이전트 친화적 Skill 모드가 추가되었다.

AI인사이트 편집팀

이 기사는 AI 기술을 활용해 작성되었으며, 편집팀이 검수했습니다.

관련 기사